Μετατροπέας PDF σε TXT

Πώς να μετατρέψετε PDF σε TXT χρησιμοποιώντας Java

Ένα αρχείο PDF συνήθως αποτελείται από Κείμενο, Εικόνα, Επικεφαλίδα, Σχολιασμούς και άλλα στοιχεία. Και καθώς αυτή η μορφή διατηρεί τη διάταξη του εγγράφου σε όλες τις πλατφόρμες (Επιτραπέζιος / Κινητός υπολογιστής κ.λπ.), έτσι χρησιμοποιείται ευρέως για την κοινή χρήση πληροφοριών μέσω του Διαδικτύου. Ωστόσο, ενδέχεται να απαιτείται η εξαγωγή του περιεχομένου κειμένου του εγγράφου PDF για περαιτέρω επεξεργασία. Έτσι, σε αυτό το άρθρο, θα συζητήσουμε τις λεπτομέρειες σχετικά με τον τρόπο εξαγωγής κειμένου από PDF χρησιμοποιώντας Java Cloud SDK. Μόλις ολοκληρωθεί η λειτουργία, η έξοδος αποθηκεύεται σε μορφή TXT.

API μετατροπής PDF σε TXT

Το Aspose.PDF Cloud SDK για Java είναι η βραβευμένη λύση REST API που προσφέρει τις δυνατότητες δημιουργίας, επεξεργασίας και μετατροπής PDF σε JPG, XPS, HTML, DOCX και ποικιλία άλλων υποστηριζόμενων μορφών. Τώρα για να εφαρμόσετε τις δυνατότητες αναγνώρισης κειμένου pdf στην εφαρμογή Java, προσθέστε τις ακόλουθες λεπτομέρειες στο pom.xml του έργου τύπου Maven build.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Μετά την εγκατάσταση του SDK, το επόμενο σημαντικό βήμα είναι η δημιουργία ενός δωρεάν λογαριασμού μέσω Aspose Cloud. Επομένως, συνδεθείτε χρησιμοποιώντας νέο λογαριασμό και αναζητήστε/δημιουργήστε Client ID και Client Secret στο Cloud Dashboard. Αυτές οι λεπτομέρειες απαιτούνται σε επόμενες ενότητες.

PDF σε κείμενο σε Java

Ακολουθήστε τα παρακάτω βήματα για να πραγματοποιήσετε τη μετατροπή PDF σε Κείμενο χρησιμοποιώντας το Java Cloud SDK. Έτσι, μετά την επιτυχή μετατροπή, το αρχείο TXT που προκύπτει αποθηκεύεται στον χώρο αποθήκευσης cloud.

  • Πρώτα πρέπει να δημιουργήσουμε ένα αντικείμενο PdfApi ενώ παρέχουμε το ClientID και το μυστικό πελάτη ως ορίσματα
  • Δεύτερον, φορτώστε το αρχείο εισόδου PDF χρησιμοποιώντας την παρουσία αρχείου
  • Μεταφορτώστε το PDF εισόδου στο χώρο αποθήκευσης cloud χρησιμοποιώντας τη μέθοδο uploadFile(…).
  • Δημιουργία μεταβλητής ακέραιου αριθμού που καθορίζει τον αριθμό σελίδας του PDF για εξαγωγή κειμένου και διπλές παρουσίες που υποδεικνύουν την ορθογώνια περιοχή της σελίδας από την οποία πρέπει να εξαγάγουμε το περιεχόμενο κειμένου
  • Τέλος, καλέστε τη μέθοδο getPageText(…) για να ανακτήσετε περιεχόμενο κειμένου από το PDF εισόδου
try
    {
    // Λάβετε ClientID και ClientSecret από https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // δημιουργήστε μια παρουσία του PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // όνομα του εισαγόμενου εγγράφου PDF
    String inputFile = "marketing.pdf";

    // διαβάστε το περιεχόμενο του αρχείου εισόδου PDF
    File file = new File("//Users//"+inputFile);
	    
    // μεταφορτώστε PDF στο χώρο αποθήκευσης cloud
    pdfApi.uploadFile("input.pdf", file, null);

    // συγκεκριμένη σελίδα PDF για μετατροπή
    int pageNumber =1;

    // Χ-συντεταγμένη κάτω - αριστερή γωνία
    Double LLX = 0.0;
    // Y - συντεταγμένη κάτω αριστερής γωνίας.
    Double LLY = 0.0;
    // X - συντεταγμένη πάνω δεξιά γωνία.
    Double URX = 800.0;
    // Y - συντεταγμένη πάνω δεξιά γωνία.
    Double URY = 800.0;
	       
    // καλέστε το API για να μετατρέψετε PDF σε κείμενο
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // προκύπτον παράδειγμα αρχείου TXT
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Τώρα διασχίστε μεμονωμένη εμφάνιση κειμένου λάβετε αποτέλεσμα εκτύπωσης στην κονσόλα
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // γράψτε περιεχόμενο κειμένου σε αρχείο TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // κλείστε το πρόγραμμα χειρισμού TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Μετατροπή PDF σε TXT

Εικόνα 1: - Προεπισκόπηση μετατροπής PDF σε TXT

Το δείγμα αρχείου PDF που χρησιμοποιείται στο παραπάνω παράδειγμα μπορεί να ληφθεί από το marketing.pdf και το extracted.txt

Εξαγωγή κειμένου από PDF χρησιμοποιώντας εντολές cURL

Τα API REST μπορούν εύκολα να προσπελαστούν μέσω εντολών cURL, επομένως σε αυτήν την ενότητα, θα διερευνήσουμε την επιλογή για το πώς μπορούμε να εξαγάγουμε περιεχόμενο κειμένου από PDF χρησιμοποιώντας εντολές cURL. Ως προαπαιτούμενο λοιπόν, πρέπει πρώτα να δημιουργήσουμε ένα διακριτικό πρόσβασης JWT (με βάση τα διαπιστευτήρια πελάτη) ενώ εκτελούμε την ακόλουθη εντολή.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Μόλις έχουμε το διακριτικό JWT, πρέπει να εκτελέσουμε την ακόλουθη εντολή για να εξαγάγουμε όλες τις εμφανίσεις κειμένου μέσα στο έγγραφο PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

συμπέρασμα

Αυτό το άρθρο έχει εξηγήσει τις λεπτομέρειες σχετικά με τον τρόπο μετατροπής PDF σε TXT χρησιμοποιώντας Java Cloud SDK. Ταυτόχρονα, έχουμε επίσης εξερευνήσει τις επιλογές εξαγωγής κειμένου από PDF χρησιμοποιώντας εντολές cURL. Έτσι, με την ευελιξία της διέλευσης μεταξύ πολλών σελίδων PDF, έχουμε έλεγχο για το πού θα εξαγάγουμε το περιεχόμενο. Σας συνιστούμε ανεπιφύλακτα να εξερευνήσετε το προϊόν Τεκμηρίωση για να μάθετε περισσότερα σχετικά με τις άλλες συναρπαστικές λειτουργίες που προσφέρονται από το Java Cloud API. Επίσης, καθώς όλα τα Cloud SDK μας δημοσιεύονται υπό την άδεια MIT, μπορείτε να εξετάσετε το ενδεχόμενο λήψης του πλήρους πηγαίου κώδικα από το GitHub και να τον τροποποιήσετε σύμφωνα με τις απαιτήσεις σας. Σε περίπτωση οποιουδήποτε ζητήματος, μπορείτε να εξετάσετε το ενδεχόμενο να μας προσεγγίσετε για γρήγορη επίλυση μέσω του δωρεάν φόρουμ υποστήριξης προϊόντων.

Σχετικά Άρθρα

Επισκεφτείτε τους παρακάτω συνδέσμους για να μάθετε περισσότερα σχετικά με: