ამონაწერი pdf ტექსტი

ამოიღეთ ტექსტი PDF-დან .NET REST API-ის გამოყენებით.

PDF დოკუმენტები გახდა სტანდარტი ინფორმაციის გაზიარებისა და გაცვლისთვის სხვადასხვა პლატფორმებსა და მოწყობილობებზე. მიუხედავად იმისა, რომ PDF-ები გთავაზობთ უსაფრთხო და თანმიმდევრულ ფორმატს, ამ დოკუმენტებიდან არსებითი მონაცემების ამოღება შეიძლება იყოს რთული ამოცანა, განსაკუთრებით მაშინ, როდესაც საქმე გვაქვს დიდი მოცულობის ინფორმაციასთან. გჭირდებათ თუ არა ტექსტის ამოღება ანალიზისთვის, მონაცემთა შეყვანისთვის ან შინაარსის მანიპულირებისთვის, გადამწყვეტი მნიშვნელობა აქვს ტექსტის ამოღების საიმედო და ეფექტური გადაწყვეტას. ამ სტატიაში ჩვენ განვიხილავთ PDF ფაილებიდან ტექსტის ამოღების სამყაროს .NET REST API-ის გამოყენებით, რომელიც უზრუნველყოფილია ძლიერი Aspose.PDF Cloud SDK-ით.

REST API PDF დამუშავებისთვის

Aspose.PDF Cloud SDK .NET-ისთვის არის ძლიერი და მოსახერხებელი API, რომელიც ამარტივებს ტექსტის ამოღებას PDF-ებიდან. Aspose.PDF Cloud SDK-ის ერთ-ერთი გამორჩეული თვისება .NET-ისთვის არის მისი უნარი გაუმკლავდეს კომპლექსურ PDF სტრუქტურებს და ზუსტად ამოიღოს ტექსტი დოკუმენტებიდან მრავალფეროვანი განლაგებით. მიუხედავად იმისა, PDF შეიცავს ტექსტს, სურათებს, ცხრილებს ან სხვა რთულ ელემენტებს, API-ს შეუძლია გონივრული ნავიგაცია დოკუმენტში და ტექსტის შინაარსის სიზუსტით ამოღება. ამიტომ, მძლავრი ფუნქციები, სიზუსტე და ინტეგრაციის სიმარტივე ხდის მას იდეალურ არჩევანს PDF დოკუმენტებიდან ძვირფასი ტექსტური მონაცემების ამოსაღებად მათი .NET აპლიკაციების ფარგლებში.

ახლა, ამ ფუნქციით დასაწყებად, პირველი ნაბიჯი არის Cloud SDK-ის მითითების დამატება ჩვენს .NET გადაწყვეტაში. ასე რომ, მოძებნეთ „Aspose.PDF-Cloud“ NuGet პაკეტების მენეჯერში და დააწკაპუნეთ ღილაკზე „პაკეტის დამატება“. მეორეც, ეწვიეთ cloud dashboard და მიიღეთ თქვენი პერსონალიზებული კლიენტის სერთიფიკატები.

ამოიღეთ PDF ტექსტი C# .NET-ის გამოყენებით

ამ განყოფილებაში ჩვენ ვაპირებთ შევისწავლოთ დეტალები PDF-დან ტექსტის პროგრამულად ამოსაღებად.

// სრული მაგალითებისა და მონაცემთა ფაილებისთვის გთხოვთ გადახვიდეთ 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// მიიღეთ კლიენტის სერთიფიკატები https://dashboard.aspose.cloud/-დან
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// შექმენით PdfApi-ს მაგალითი
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// შეიყვანეთ PDF ფაილის სახელი
String inputFile = "Binder1-1.pdf";
// წაიკითხეთ PDF ფაილის შინაარსი ნაკადის მაგალითზე
var sourceFile = System.IO.File.OpenRead(inputFile);

// ატვირთეთ PDF ფაილი ღრუბლოვან საცავში
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// ქვედა - მარცხენა კუთხის X-კოორდინატი
Double LLX = 500.0;
// Y - ქვედა მარცხენა კუთხის კოორდინატი.
Double LLY = 500.0;
// X - ზედა მარჯვენა კუთხის კოორდინატი.
Double URX = 800.0;
// Y - ზედა მარჯვენა კუთხის კოორდინატი.
Double URY = 800.0;

// დარეკეთ API-ს PDF დოკუმენტის გარკვეული კოორდინატებიდან ტექსტის ამოსაღებად
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// ტრავერსი ინდივიდუალური ტექსტის შემთხვევის მეშვეობით
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // ტექსტის შინაარსის ჩაწერა კონსოლში
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
ამოიღეთ pdf ტექსტი

PDF დოკუმენტიდან ამოღებული ტექსტის გადახედვა.

ქვემოთ მოცემულია დეტალები ზემოთ აღნიშნული კოდის ფრაგმენტთან დაკავშირებით.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

პირველ რიგში, შექმენით PdfApi კლასის მაგალითი, სადაც არგუმენტებად გადავცემთ კლიენტის რწმუნებათა სიგელებს.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

ჩატვირთეთ შეყვანილი PDF ფაილის შინაარსი სტრიმინგისთვის.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

ატვირთეთ PDF დოკუმენტი ღრუბლოვან საცავში.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

დაურეკეთ API-ს PDF ფაილიდან ტექსტის ამოსაღებად გვერდის გარკვეულ კოორდინატებზე.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

გაიმეორეთ სიაში, რომელიც შეიცავს ამოღებულ ტექსტს და დაბეჭდეთ ტექსტის ეგზემპლარები კონსოლში.

ტექსტის გაანალიზება PDF-დან cURL ბრძანებების გამოყენებით

cURL ბრძანებების გამოყენებით Aspose.PDF Cloud API-სთან ერთად, შეგიძლიათ მარტივად ამოიღოთ ტექსტური შინაარსი ღრუბლოვან საცავში განთავსებული PDF ფაილებიდან. API მხარს უჭერს სხვადასხვა პარამეტრს მოპოვების პროცესის პერსონალურად მოსაწყობად, რაც საშუალებას გაძლევთ მიუთითოთ კოორდინატები და სხვა ვარიანტები ტექსტის სიზუსტით ამოსაღებად.

ამ მიდგომის პირველი ნაბიჯი არის JWT წვდომის ნიშნის გენერირება შემდეგი ბრძანების შესრულებისას.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

JWT ჟეტონის გენერირების შემდეგ, გთხოვთ შეასრულოთ შემდეგი ბრძანება PDF დოკუმენტიდან ტექსტის ამოსაღებად.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

ჩაანაცვლეთ inputPDF PDF დოკუმენტის სახელით, რომელიც უკვე ხელმისაწვდომია ღრუბლოვან საცავში, ხოლო accessToken ზემოთ გენერირებული JWT ტოკენით.

დასკვნა

დასასრულს, Aspose.PDF Cloud SDK .NET-ისთვის და cURL ბრძანების მიდგომა გვთავაზობს ეფექტურ და საიმედო გადაწყვეტილებებს PDF დოკუმენტებიდან ტექსტის ამოსაღებად. Aspose.PDF Cloud SDK .NET-ისთვის უზრუნველყოფს ყოვლისმომცველ და დეველოპერებისთვის ხელსაყრელ API-ს ფუნქციების ფართო სპექტრით, რაც მას ძლიერ არჩევანს ხდის PDF ტექსტის ამოღების .NET აპლიკაციებში ინტეგრირებისთვის. მეორეს მხრივ, cURL ბრძანების მიდგომა გთავაზობთ მოქნილ და პლატფორმისგან დამოუკიდებელ მეთოდს Aspose.PDF Cloud API-სთან ურთიერთობისთვის, რაც მას შესანიშნავ ვარიანტად აქცევს სხვადასხვა გარემოში და პროგრამირების ენებში მომუშავე დეველოპერებისთვის.

გამოსადეგი ბმულები

დაკავშირებული სტატიები

ჩვენ გირჩევთ ეწვიოთ შემდეგ ბლოგებს: