εξαγωγή κειμένου pdf

Εξαγωγή κειμένου από PDF χρησιμοποιώντας .NET REST API.

Τα έγγραφα PDF έχουν γίνει το πρότυπο για την κοινή χρήση και την ανταλλαγή πληροφοριών σε διάφορες πλατφόρμες και συσκευές. Ενώ τα PDF προσφέρουν μια ασφαλή και συνεπή μορφή, η εξαγωγή βασικών δεδομένων από αυτά τα έγγραφα μπορεί να είναι μια αποθαρρυντική εργασία, ειδικά όταν πρόκειται για μεγάλους όγκους πληροφοριών. Είτε χρειάζεται να εξαγάγετε κείμενο για ανάλυση, εισαγωγή δεδομένων ή χειρισμό περιεχομένου, μια αξιόπιστη και αποτελεσματική λύση εξαγωγής κειμένου είναι ζωτικής σημασίας. Σε αυτό το άρθρο, εμβαθύνουμε στον κόσμο της εξαγωγής κειμένου από αρχεία PDF χρησιμοποιώντας το .NET REST API, που υποστηρίζεται από το ισχυρό Aspose.PDF Cloud SDK.

REST API για επεξεργασία PDF

Το Aspose.PDF Cloud SDK για .NET είναι ένα ισχυρό και φιλικό προς το χρήστη API που απλοποιεί την εξαγωγή κειμένου από αρχεία PDF. Ένα από τα ξεχωριστά χαρακτηριστικά του Aspose.PDF Cloud SDK για .NET είναι η ικανότητά του να χειρίζεται περίπλοκες δομές PDF και να εξάγει με ακρίβεια κείμενο από έγγραφα με διαφορετικές διατάξεις. Είτε το PDF περιέχει κείμενο, εικόνες, πίνακες ή άλλα πολύπλοκα στοιχεία, το API μπορεί να περιηγηθεί έξυπνα στο έγγραφο και να ανακτήσει το περιεχόμενο κειμένου με ακρίβεια. Επομένως, τα ισχυρά χαρακτηριστικά, η ακρίβεια και η ευκολία ενσωμάτωσης το καθιστούν ιδανική επιλογή για την εξαγωγή πολύτιμων δεδομένων κειμένου από έγγραφα PDF εντός των εφαρμογών τους .NET.

Τώρα, για να ξεκινήσετε με αυτήν τη δυνατότητα, το πρώτο βήμα είναι να προσθέσετε την αναφορά του Cloud SDK στη λύση μας .NET. Έτσι, αναζητήστε το «Aspose.PDF-Cloud» στη Διαχείριση πακέτων NuGet και κάντε κλικ στο κουμπί «Προσθήκη πακέτου». Δεύτερον, επισκεφτείτε το σύννεφο dashboard και αποκτήστε τα εξατομικευμένα διαπιστευτήρια πελάτη σας.

Εξαγωγή κειμένου PDF χρησιμοποιώντας C# .NET

Σε αυτήν την ενότητα, θα εξερευνήσουμε τις λεπτομέρειες για την εξαγωγή κειμένου από το PDF μέσω προγραμματισμού.

// Για πλήρη παραδείγματα και αρχεία δεδομένων, μεταβείτε στο 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Λάβετε διαπιστευτήρια πελάτη από τη https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// δημιουργήστε μια παρουσία του PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Εισαγάγετε το όνομα του αρχείου PDF
String inputFile = "Binder1-1.pdf";
// Διαβάστε το περιεχόμενο του αρχείου PDF σε παράδειγμα ροής
var sourceFile = System.IO.File.OpenRead(inputFile);

// Ανεβάστε αρχείο PDF στο χώρο αποθήκευσης cloud
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Χ-συντεταγμένη κάτω - αριστερή γωνία
Double LLX = 500.0;
// Y - συντεταγμένη κάτω αριστερής γωνίας.
Double LLY = 500.0;
// X - συντεταγμένη πάνω δεξιά γωνία.
Double URX = 800.0;
// Y - συντεταγμένη πάνω δεξιά γωνία.
Double URY = 800.0;

// Καλέστε το API για να εξαγάγετε κείμενο από ορισμένες συντεταγμένες σε έγγραφο PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Διέλευση μέσω μεμονωμένης εμφάνισης κειμένου
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // γράψτε περιεχόμενο κειμένου στην κονσόλα
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Εξαγωγή κειμένου pdf

Προεπισκόπηση κειμένου που ανασύρθηκε από έγγραφο PDF.

Παρακάτω δίνονται οι λεπτομέρειες σχετικά με το παραπάνω απόσπασμα κώδικα.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Αρχικά, δημιουργήστε μια παρουσία της κλάσης PdfApi όπου μεταβιβάζουμε διαπιστευτήρια πελάτη ως ορίσματα.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Φορτώστε το περιεχόμενο του αρχείου εισόδου PDF στην παρουσία ροής.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Ανεβάστε το έγγραφο PDF στο χώρο αποθήκευσης cloud.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Καλέστε το API για να εξαγάγετε κείμενο από αρχείο PDF σε συγκεκριμένες συντεταγμένες σελίδας.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Επαναλάβετε τη λίστα που περιέχει εμφανίσεις εξαγόμενου κειμένου και εκτυπώστε τις παρουσίες κειμένου στην κονσόλα.

Ανάλυση κειμένου από PDF χρησιμοποιώντας εντολές cURL

Χρησιμοποιώντας εντολές cURL σε συνδυασμό με το Aspose.PDF Cloud API, μπορείτε να εξαγάγετε αβίαστα περιεχόμενο κειμένου από αρχεία PDF που φιλοξενούνται στο χώρο αποθήκευσης cloud. Το API υποστηρίζει μια ποικιλία παραμέτρων για την προσαρμογή της διαδικασίας εξαγωγής, επιτρέποντάς σας να καθορίσετε συντεταγμένες και άλλες επιλογές για την εξαγωγή κειμένου με ακρίβεια.

Το πρώτο βήμα με αυτήν την προσέγγιση είναι να δημιουργήσετε ένα διακριτικό πρόσβασης JWT ενώ εκτελείτε την ακόλουθη εντολή.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Μόλις δημιουργηθεί το διακριτικό JWT, εκτελέστε την ακόλουθη εντολή για να τραβήξετε το κείμενο από το έγγραφο PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Αντικαταστήστε το «inputPDF» με το όνομα του εγγράφου PDF που είναι ήδη διαθέσιμο στο χώρο αποθήκευσης cloud και το «accessToken» με το διακριτικό JWT που δημιουργήθηκε παραπάνω.

συμπέρασμα

Συμπερασματικά, τόσο το Aspose.PDF Cloud SDK για .NET όσο και η προσέγγιση εντολών cURL προσφέρουν αποτελεσματικές και αξιόπιστες λύσεις για την εξαγωγή κειμένου από έγγραφα PDF. Το Aspose.PDF Cloud SDK για .NET παρέχει ένα ολοκληρωμένο και φιλικό προς τους προγραμματιστές API με ένα ευρύ φάσμα δυνατοτήτων, καθιστώντας το μια ισχυρή επιλογή για την ενσωμάτωση της εξαγωγής κειμένου PDF σε εφαρμογές .NET. Από την άλλη πλευρά, η προσέγγιση εντολών cURL προσφέρει μια ευέλικτη και ανεξάρτητη από την πλατφόρμα μέθοδο αλληλεπίδρασης με το Aspose.PDF Cloud API, καθιστώντας το μια εξαιρετική επιλογή για προγραμματιστές που εργάζονται σε διαφορετικά περιβάλλοντα και γλώσσες προγραμματισμού.

Χρήσιμοι Σύνδεσμοι

Σχετικά Άρθρα

Συνιστούμε ανεπιφύλακτα να επισκεφτείτε τα παρακάτω ιστολόγια: