PDF(Portable Document Format) ფაილები ერთ-ერთი ყველაზე ნდავი და ფართოდ გამოყენებული ფორმატებია პრეზენტაციების გაზიარებისას სხვადასხვა პლატფორმებზე—არაფერის პროგრამული უზრუნველყოფისა თუ ინსტრუმენტის მიხედვით განლაგებისა და გამოჩენის მუდმივობის უზრუნველყოფა. თუმცა, არსებობს სიტუაციები, როდესაც შემქმნელებმა უნდა გამოიტანონ ტექსტი PDF ფაილიდან პროგრამულად, როგორიცაა შინაარსის ანალიზი, დოკუმენტების ინდექსირება ან PDF ფორმატების ფინური ტექსტურ ფორმატებად ქცევა.

ამ სტატიის ვებს, ჩვენ გავისანსვებთ როგორ გამოვიყენოთ ტექსტების გამოღება PDF ფაილებიდან და შევქმნოთ PDF to Text კონვერტერი .NET REST API-ს გამოყენებით, რაც შესაძლებელს ხდის შეუფერხებელი და ავტომატიზირებული ტექსტის გამოღება REST API ზარების საშუალებით.

PDF პროცესირების API

გამოიყენეთ Aspose.PDF Cloud SDK for .NET ის ძალა PDF ფაილებიდან ეფექტურად ტექსტის ამოსატანად. ტექსტის ამოღების გარდა, SDK გაწვდით შესაძლებლობას შექმნათ PDF დოკუმენტები ნულიდან ან შაბლონებიდან, ახალისოთ არსებული PDF-ები და გარდაქმნათ ისინი სხვა მხარდაჭერილი ფორმატებში. ასევე შეგიძლიათ განახორციელოთ დავალებები, როგორიცაა დაშიფვრის მოხსნა, შერწყმა და PDF ფაილების მანიპულირება პირდაპირ .NET REST API-ს საშუალებით.

ახლა დასაწყებად, უნდა ვაწვდოთ SDK ჩვენს .NET პროექტში.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

ჩვენს შეუძლია ასევე შექმნას უფასო ანგარიშზე Cloud Dashboard და მოიპოვოს ჩვენი პერსონალიზირებული კლიენტის კრედენციალები.

PDF-დან ტექსტში გადაქცევა C#-ში

ქვემოთ აღნიშნული ნაბიჯებისPalunექტი გააკეთეთ PDF ფაილიდან ტექსტის ამოსაწყვეტად C# .NET-ის დახმარებით.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

PdfApi კლასის ობიექტის შექმნა, სადაც ზემოთ მოპოვებული კლიენტის სავალდებულო სერთიფიკატები გადავცემთ არგუმენტებად.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Read the input PDF from local drive and upload to cloud storage using UploadFile(...) method.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

ჩვენ გვჭირდება PDF ფაილში მითითებული რეგიონი, საიდანაც უნდა გამოვიღოთ ტექსტური შინაარსი GetText(...) მეთოდის გამოყენებით.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

ერთხელ ტექსტური შინაარსის ამოღება შესრულდება, ჩვენ შეგვიძლია შევინახოთ ადგილობრივ დისკზე ან გამოვიტანოთ იგი კონსოლზე.

// გთხოვთ მეტი მაგალითებისთვის ეწვიოთ https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// მიიღეთ კლიენტის კრედენციები https://dashboard.aspose.cloud/ ისგან.
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// PdfApi ობიექტის შექმნა, ორივე მომხმარებლის სერთიფიკატების გადახდით არგუმენტებად.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF файл სახელი
String inputFile = "input.pdf";
// PDF სარგებლობისათვის ჩაწერეთ ნაკადის მაგალითში.
var sourceFile = OpenRead(inputFile);

// PDF ფაილის ატვირთვა ღრუბელ საცავში
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// ქვედა - მარცხენა კუთხის X კოორდინატა
Double LLX = 200.0;
// დაბალი-მარცხენა კუთხის Y კოორდინატი.
Double LLY = 200.0;
// X - კოორდინატი ზედა მარჯვენა კუთხის.
Double URX = 600.0;
// ზ - კოორდინატა ზემოთ მარჯვნივ კუთხეში.
Double URY = 650.0;

// Call the API to extract text from specified coordinates
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// ახლა გადაამოწმეთ თითოეული ტექსტის შემთხვევა და მიუთითეთ კონსოლში
//  ალტერნატიულად, ჩვენ ასევე შეგვიძლია დავასრულოთ გამოსავალი პირდაპირ .txt ფაილში.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

PDF-დან ტექსტის გათავისუფლება cURL-ის გამოყენებით

განვათავსოთ .NET ან Java კოდის ნიმუშების გამოყენების გარდა, თქვენ ასევე შეგიძლიათ გამოიტანოთ ტექსტი PDF ფაილებიდან Aspose.PDF Cloud-ს გამოყენებით cURL ბრძანებების საშუალებით. ამიტომ ამ მიდგომაში, წინაპირობაა JWT წვდომის ტოკენის გენერირება (თქვენი მომხმარებლის სერტიფიკატების საფუძველზე), რომელიც შეგიძლიათ მოიძიოთ შემდეგი ბრძანების საშუალებით.

Step 1. - მიიღეთ JWTAccess ტოკენი:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Step 1. - ამოიღეთ ტექსტი PDF ფაილიდან:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • როდესაც ბრძანება წარმატებით შესრულდება, ტექსტი მითითებული მართკუთხალხაზოვანი რეგიონისგან იქნება ამოღებული ტექსტური ფაილში.

თავისუფალი PDF განმვევი აპლიკაცია

თუ თქვენ ეძებთ API-ის შესაძლებლობების ტესტირებას კოდირების ან cURL ბრძანებების გარეშე, მაშინ სცადეთ ჩვენი [Free PDF Parser] აპლიკაციის გამოყენება, რომელიც აშენებულია .NET REST APIs-ზე.

pdf parser app

დასკვნითი შენიშვნები

ამ სტატიაში, ჩვენ ვისაუბრეთ იმ დეტალებზე, თუ როგორ უნდა ინტეგრირდეს Aspose.PDF Cloud SDK for .NET ჩვენს .NET პროექტში ტექსტის ექსტრაქციის მიზნებით და ამავე დროს, ვიკვლიეთ cURL ბრძანებების გამოყენების შესაძლებლობა PDF-ის ტექსტის ექსტრაქციისთვის კომანდური ხაზის ინტერფეისით. ასე რომ, რათა თქვენი მიზანი იყოს მონაცემთა ანალიზი, მანქანური სწავლა ან სხვა ავტომატიზაციის მიზნები, SDK გაწვდით საიმედო ინსტრუმენტებით PDF-ის შინაარსის ეფექტურად გასამკლავებლად. მოიყენეთ ეს უნარები პრაქტიკაში და გაამარტივეთ თქვენი PDF-ის მართვა პროფესიონალის მსგავსად!

სასარგებლო მასალა

დაკავშირებული სტატები

ჩვენ ასევე ვურჩევთ, მოინახულოთ შემდეგი ბმულები, რათა გააცნობიეროთ მეტი: