PDF(Portable Document Format) αρχεία είναι από τα πιο αξιόπιστα και ευρέως χρησιμοποιούμενα φορμά για την ανταλλαγή εγγράφων σε διάφορες πλατφόρμες—διασφαλίζοντας συνεπή διάταξη και εμφάνιση ανεξαρτήτως λογισμικού ή συσκευής. Ωστόσο, υπάρχουν περιπτώσεις όπου οι προγραμματιστές χρειάζεται να εξάγουν κείμενο από αρχεία PDF προγραμματιστικά, όπως η ανάλυση περιεχομένου, η ευρετηρίαση εγγράφων ή η μετατροπή των PDF σε επεξεργάσιμα φορμά κειμένου.

Σε αυτό το άρθρο, θα εξερευνήσουμε πώς να εξάγουμε κείμενο από αρχεία PDF και να δημιουργήσουμε ένα μετατροπέα PDF σε κείμενο χρησιμοποιώντας .NET REST API, επιτρέποντας την απρόσκοπτη και αυτοματοποιημένη εξαγωγή κειμένου μέσω κλήσεων REST API.

API Επεξεργασίας PDF

Εκμεταλλευτείτε τη δύναμη του Aspose.PDF Cloud SDK for .NET για να εξάγετε κείμενο από αρχεία PDF αποδοτικά. Εκτός από την εξαγωγή κειμένου, το SDK σας επιτρέπει να δημιουργείτε έγγραφα PDF από το μηδέν ή από πρότυπα, να επεξεργάζεστε υφιστάμενα PDFs και να τα μετατρέπετε σε άλλες υποστηριζόμενες μορφές. Μπορείτε επίσης να εκτελείτε εργασίες όπως η αποκρυπτογράφηση, η συγχώνευση και η χειρισμός αρχείων PDF απευθείας μέσω του .NET REST API.

Τώρα για να ξεκινήσουμε, πρέπει να εγκαταστήσουμε το SDK στο έργο μας .NET.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Πρέπει επίσης να δημιουργήσουμε έναν δωρεάν λογαριασμό στο Cloud Dashboard και να αποκτήσουμε τα εξατομικευμένα διαπιστευτήρια πελάτη μας.

Perform PDF to Text Conversion in C#

Παρακαλώ ακολουθήστε τα παρακάτω βήματα για να εξάγετε το κείμενο από το αρχείο PDF χρησιμοποιώντας C# .NET.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Δημιουργήστε ένα αντικείμενο της κλάσης PdfApi όπου θα περάσουμε τα διαπιστευτήρια πελάτη που αποκτήθηκαν παραπάνω ως ορίσματα.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Read the input PDF from local drive and upload to cloud storage using UploadFile(...) method.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Πρέπει να καθορίσουμε την περιοχή στο αρχείο PDF από όπου χρειάζεται να εξαγάγουμε το περιεχόμενο κειμένου χρησιμοποιώντας τη μέθοδο GetText(...).

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Αφού έχει εξαχθεί το περιεχόμενο του κειμένου, είτε μπορούμε να το αποθηκεύσουμε στον τοπικό δίσκο είτε να το εκτυπώσουμε στην κονσόλα.

// Για περισσότερα παραδείγματα, παρακαλώ επισκεφθείτε https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Αποκτήστε διαπιστευτήρια πελάτη από https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// δημιουργήστε ένα αντικείμενο του PdfApi περνώντας τα διαπιστευτήρια του πελάτη ως επιχειρήματα
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// Φορτώστε το αρχείο PDF σε μια στιγμή ροής.
var sourceFile = OpenRead(inputFile);

// Ανεβάστε το αρχείο PDF στην αποθήκευση cloud
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Συντεταγμένη Χ της κάτω αριστερής γωνίας
Double LLX = 200.0;
// Y - συντεταγμένη του κάτω-αριστερού γωνιακού σημείου.
Double LLY = 200.0;
// X - συντεταγμένη του άνω δεξιού γωνιακού σημείου.
Double URX = 600.0;
// Y - συντεταγμένη του άνω δεξιού γωνία.
Double URY = 650.0;

// Καλέστε την API για να εξαγάγετε κείμενο από καθορισμένες συντεταγμένες.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Τώρα να επαναλάβετε κάθε εμφάνιση Κειμένου και να εκτυπώσετε στην κονσόλα
// Εναλλακτικά, μπορούμε επίσης να αποθηκεύσουμε την έξοδο απευθείας σε αρχείο .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Εξαγωγή Κειμένου από PDF χρησιμοποιώντας cURL

Εκτός από τη χρήση αποσπασμάτων κώδικα .NET ή Java, μπορείτε επίσης να εξάγετε κείμενο από αρχεία PDF χρησιμοποιώντας Aspose.PDF Cloud μέσω εντολών cURL. Έτσι, σε αυτήν την προσέγγιση, οι προϋποθέσεις είναι να δημιουργήσετε ένα JWT access token (με βάση τα διαπιστευτήρια του πελάτη σας), το οποίο μπορεί να αποκτηθεί χρησιμοποιώντας την ακόλουθη εντολή.

Βήμα 1. - Αποκτήστε το JWTAccess token:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Βήμα 1. - Εξαγωγή κειμένου από αρχείο PDF:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • Μόλις η εντολή εκτελείται με επιτυχία, το κείμενο από την καθορισμένη ορθογώνια περιοχή εξάγεται σε αρχείο κειμένου.

Ελεύθερη εφαρμογή αναλύσης PDF

Εάν ψάχνετε να δοκιμάσετε τις δυνατότητες του API χωρίς να απαιτείται προγραμματισμός ή εντολές cURL, τότε δοκιμάστε να χρησιμοποιήσετε την εφαρμογή [Free PDF Parser] που έχει κατασκευαστεί πάνω από τα .NET REST APIs.

pdf parser app

Καταληκτικές Παρατηρήσεις

Σε αυτό το άρθρο, έχουμε μάθει τις λεπτομέρειες σχετικά με το πώς να ενσωματώσουμε το Aspose.PDF Cloud SDK για .NET στο έργο μας .NET για σκοπούς εξαγωγής κειμένου και ταυτόχρονα, έχουμε εξερευνήσει την επιλογή της χρήσης εντολών cURL για να εκτελέσουμε εξαγωγή κειμένου PDF μέσω διεπαφής γραμμής εντολών. Έτσι, ανεξάρτητα από το εάν ο στόχος σας είναι η ανάλυση δεδομένων, η μηχανική εκμάθηση ή άλλοι αυτοματισμοί, το SDK σας ενδυναμώνει με αξιόπιστα εργαλεία για να χειρίζεστε το περιεχόμενο PDF με αποτελεσματικότητα. Βάλτε αυτές τις δεξιότητες σε πρακτική εφαρμογή και απλοποιήστε τη διαχείριση PDF σας όπως ένας επαγγελματίας!

Υλικό Ανάγνωσης

Σχετικά Άρθρα

Σας προτείνουμε επίσης να επισκεφθείτε τους παρακάτω συνδέσμους για να μάθετε περισσότερα σχετικά με: