Πρέπει συχνά να μετατρέπουμε PDF σε αρχεία κειμένου για χρήση στην ανάλυση δεδομένων, την αναζήτηση, ή την αναδιαμόρφωση περιεχομένου. Επίσης, αν θέλετε να δημιουργήσετε έναν μετατροπέα PDF σε κείμενο, να αυτοματοποιήσετε την OCR διαδικτυακά, ή να αντιγράψετε κείμενο από έγγραφα PDF για περαιτέρω επεξεργασία, το REST API μας προσφέρει μια αξιόπιστη και φιλική προς τους προγραμματιστές λύση.
- API Μετατροπής PDF
- PDF to Text Conversion using C# .NET
- Μετατροπή PDF σε αρχείο TXT χρησιμοποιώντας cURL
API Μετατροπής PDF
Ο Aspose.PDF Cloud SDK for .NET είναι ένα API βασισμένο στο νέφος που απλοποιεί την εξαγωγή κειμένου από έγγραφα και την επεξεργασία PDF. Διαχειρίζεται με εξυπνάδα τόσο τα PDF που είναι βασισμένα σε κείμενο όσο και αυτά που είναι βασισμένα σε εικόνες, παρέχοντας ακριβή και δομημένη έξοδο σε μορφή TXT.
Βασικά χαρακτηριστικά περιλαμβάνουν:
- PDF to TXT file extraction with high accuracy.
- Διασυστηματική REST API — λειτουργεί απρόσκοπτα σε C#, .NET Core, ή οποιοδήποτε περιβάλλον με υποστήριξη HTTP.
- Υποστήριξη για μερική εξαγωγή — ορίστε περιοχές και εξαγάγετε κείμενο από συγκεκριμένες περιοχές.
Για να ξεκινήσετε, προσθέστε το SDK στο έργο .NET σας χρησιμοποιώντας το NuGet:
Install-Package Aspose.PDF-Cloud
Τότε, επισκεφθείτε τον Aspose Cloud Dashboard για να αποκτήσετε τα διαπιστευτήρια Client ID και Client Secret σας.
Μετατροπή PDF σε Κείμενο χρησιμοποιώντας C# .NET
Ας δούμε πώς να μετατρέψουμε ένα PDF σε αρχείο κειμένου σε C# χρησιμοποιώντας το .NET REST API.
Βήμα 1. - Δημιουργήστε μια παρουσία της κλάσης PdfApi
χρησιμοποιώντας διαπιστευτήρια πελάτη.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Βήμα 2. - Διαβάστε το αρχείο PDF εισόδου και ανεβάστε το σε αποθηκευτικό χώρο στο cloud.
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Βήμα 3. - Ορίστε την ορθογώνια περιοχή σε PDF και εξαγάγετε κείμενο χρησιμοποιώντας τη μέθοδο GetText(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Βήμα 4. - Επαναλάβετε μέσα από τη λίστα που περιέχει τις εμφανίσεις κειμένου και αποθηκεύστε την στον τοπικό δίσκο.
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// Για πλήρη παραδείγματα και αρχεία δεδομένων, παρακαλώ μεταβείτε στο https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Αποκτήστε διαπιστευτήρια κ cliente από https://dashboard.aspose.cloud/
// Δημιουργήστε μια περίπτωση της κλάσης PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// Ανέβασε το PDF στο cloud storage
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// Save the extracted text locally
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
Μετατροπή PDF σε αρχείο TXT χρησιμοποιώντας cURL
Για προγραμματιστές που προτιμούν μια ροή εργασίας σε scripting ή διαθεσιμότητας σε πολλαπλές πλατφόρμες, το Aspose.PDF Cloud REST API μπορεί επίσης να προσπελαστεί χρησιμοποιώντας εντολές cURL.
Βήμα 1. – Δημιουργία ενός Access Token:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Βήμα 2. – Εξαγωγή Κειμένου από PDF Μόλις έχει δημιουργηθεί το JWT token, παρακαλώ εκτελέστε την ακόλουθη εντολή για να εξαγάγετε το κείμενο από το έγγραφο PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
Αυτή η εντολή cURL ανακτά κείμενο από το αρχείο PDF σας και το αποθηκεύει σε ένα .txt αρχείο, καθιστώντας την ιδανική μέθοδο για τη μετατροπή PDF σε αρχείο κειμένου σε αυτοματοποιημένα περιβάλλοντα.
Δοκιμάστε τον δωρεάν μετατροπέα PDF σε κείμενο
Αναζητάτε μετατροπή PDF σε TXT χωρίς προγραμματισμό; Δοκιμάστε τον Δωρεάν Online PDF to Text Converter — που υποστηρίζεται από το Aspose.PDF Cloud. Απλά ανεβάστε το PDF σας και κατεβάστε το αρχείο κειμένου που έχει εξαχθεί σε δευτερόλεπτα.

Συμπέρασμα
Σε αυτό το άρθρο, έχουμε μάθει ότι η μετατροπή PDF σε κείμενο είναι ουσιώδης για την αποδοτική εξαγωγή και επαναχρησιμοποίηση πληροφοριών. Με το Aspose.PDF Cloud, μπορείτε να αυτοματοποιήσετε τη διαδικασία αντιγραφής κειμένου από PDF, να διαχειρίζεστε σαρωμένα αρχεία χρησιμοποιώντας OCR online και να εξάγετε δεδομένα ως δομημένο κείμενο για αναλύσεις ή ευρετηρίαση αναζητήσεων.
Συχνές Ερωτήσεις (FAQs)
-
Can I copy text from PDF programmatically? Απόλυτα. Η API σας επιτρέπει να αντιγράφετε κείμενο από αρχεία PDF ανακτώντας όλες τις εμφανίσεις κειμένου ή αποσπώντας από συγκεκριμένες περιοχές χρησιμοποιώντας συντεταγμένες.
-
What`s the difference between PDF to text and text to PDF? Η μετατροπή PDF σε κείμενο εξάγει δεδομένα κειμένου από έγγραφα, ενώ η μετατροπή κειμένου σε PDF δημιουργεί ένα νέο έγγραφο PDF από είσοδο απλού κειμένου. Η Aspose.PDF Cloud υποστηρίζει και τις δύο λειτουργίες.
-
Do I need Adobe Acrobat installed? Όχι. Το Aspose.PDF Cloud SDK λειτουργεί ανεξάρτητα από το Adobe Acrobat ή οποιοδήποτε άλλο λογισμικό. Όλες οι λειτουργίες μετατροπής PDF σε κείμενο πραγματοποιούνται στο cloud.
-
Is the extracted text accurate for complex layouts? Ναι. Η API μπορεί να εξάγει με ακρίβεια κείμενο από πολυστηλοειδείς διατάξεις, πίνακες και PDF μεικτού περιεχομένου, διατηρώντας μια καθαρή και αναγνώσιμη δομή στο αποτέλεσμα του αρχείου TXT.
Χρήσιμοι Σύνδεσμοι
Σχετικά Άρθρα
Συνιστούμε ανεπιφύλακτα να επισκεφθείτε τα παρακάτω μπλογκ: