pdf σε κείμενο

Πώς να μετατρέψετε PDF σε κείμενο στην Python

Ο σημερινός ψηφιακός κόσμος έχει αφθονία πληροφοριών και η δυνατότητα εξαγωγής κειμένου από έγγραφα PDF έχει γίνει όχι απλώς μια ευκολία αλλά μια αναγκαιότητα. Φανταστείτε ότι ψάχνετε σε ένα μακροσκελές αρχείο PDF, ψάχνετε για αυτό το κρίσιμο κομμάτι πληροφοριών για να αναφέρετε στην έρευνά σας ή ίσως διαχειρίζεστε ένα αποθετήριο εγγράφων, επιδιώκοντας να εξαγάγετε δεδομένα για ανάλυση. Σε αυτά τα σενάρια και σε πολλά άλλα, η δυνατότητα να μετατρέπετε εύκολα περιεχόμενο PDF σε απλό κείμενο εμφανίζεται ως αλλαγή του παιχνιδιού. Αυτό το άρθρο διερευνά τον βαθύ σκοπό και τα αναμφισβήτητα οφέλη της εξαγωγής κειμένου από αρχεία PDF χρησιμοποιώντας το Python Cloud SDK. Αυτός ο μετασχηματισμός δίνει τη δυνατότητα σε άτομα και οργανισμούς να διαχειρίζονται, να αναλύουν και να χρησιμοποιούν αποτελεσματικά το ψηφιακό περιεχόμενο σε έναν κόσμο όπου οι πληροφορίες έχουν τεράστια σημασία.

API REST μετατροπής PDF σε κείμενο

Η επίτευξη εξαγωγής κειμένου από έγγραφα PDF γίνεται απρόσκοπτη και αποτελεσματική με το Aspose.PDF Cloud SDK για Python. Αυτό το ευέλικτο SDK σάς δίνει τη δυνατότητα να μετατρέπετε αβίαστα περιεχόμενο PDF σε απλό κείμενο, ξεκλειδώνοντας τις πληροφορίες που είναι αποθηκευμένες σε αυτά τα ψηφιακά έγγραφα.

Το Cloud SDK είναι διαθέσιμο για δωρεάν λήψη μέσω του αποθετηρίου PIP και GitHub. Τώρα εκτελέστε την ακόλουθη εντολή στο τερματικό/γραμμή εντολών για να εγκαταστήσετε την πιο πρόσφατη έκδοση του SDK:

 pip install asposepdfcloud

Εάν χρησιμοποιείτε PyCharm IDE, μπορείτε να προσθέσετε απευθείας το SDK ως εξάρτηση στο έργο σας.

Αρχείο ->Ρυθμίσεις ->Έργο ->Διερμηνέας Python ->asposepdfcloud

Μετά την εγκατάσταση, το επόμενο σημαντικό βήμα είναι μια δωρεάν συνδρομή στις υπηρεσίες cloud μας μέσω του Aspose.Cloud dashboard. Εάν έχετε λογαριασμό GitHub ή Google, απλώς Εγγραφείτε ή κάντε κλικ στο κουμπί Δημιουργία νέου λογαριασμού. Τώρα συνδεθείτε στον πίνακα ελέγχου και αποκτήστε το εξατομικευμένο Client ID και τα στοιχεία Client Secret.

Εξαγωγή κειμένου από PDF σε Python

Ακολουθήστε τις οδηγίες που δίνονται παρακάτω για να εξαγάγετε Κείμενο από έγγραφα PDF χρησιμοποιώντας το Python SDK.

  • Πρώτον, δημιουργήστε μια παρουσία της κλάσης ApiClient ενώ παρέχετε ως ορίσματα Client ID Client Secret.
  • Δεύτερον, δημιουργήστε ένα στιγμιότυπο κλάσης PdfApi που λαμβάνει το αντικείμενο ApiClient ως όρισμα εισόδου.
  • Τώρα καλέστε τη μέθοδο gettext(…) παρέχοντας συντεταγμένες LLX, LLY, URX και URY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # δημιουργήστε την παρουσία PdfApi ενώ μεταβιβάζετε το PdfApiClient ως όρισμα
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Καλέστε τη μέθοδο εξαγωγής κειμένου
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # εκτύπωση μηνύματος στην κονσόλα (προαιρετικό)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Προεπισκόπηση μετατροπής PDF σε κείμενο

Εικόνα 1: - Προεπισκόπηση PDF σε Κείμενο.

Σε περίπτωση που χρειαστεί να εξαγάγετε το κείμενο από μια συγκεκριμένη σελίδα του εγγράφου, δοκιμάστε να χρησιμοποιήσετε το GetPageText API που λαμβάνει ως όρισμα το pageNumber.

Μετατροπή PDF σε κείμενο με χρήση της εντολής cURL

Ζήστε την απρόσκοπτη μετατροπή του περιεχομένου PDF σε απλό κείμενο χρησιμοποιώντας τον ισχυρό συνδυασμό εντολών Aspose.PDF Cloud και cURL. Αυτή η δυναμική ενοποίηση όχι μόνο απλοποιεί τη μετατροπή PDF σε κείμενο, αλλά προσφέρει επίσης πολλά πλεονεκτήματα που βελτιώνουν την εμπειρία διαχείρισης εγγράφων και εξαγωγής κειμένου.

Λάβετε υπόψη ότι προαπαιτούμενο σε αυτήν την προσέγγιση είναι η δημιουργία ενός JSON Web Token (JWT) με βάση τα διαπιστευτήρια πελάτη σας. Αυτό το βήμα είναι υποχρεωτικό καθώς τα API μας είναι προσβάσιμα μόνο σε εγγεγραμμένους χρήστες. Εκτελέστε την ακόλουθη εντολή για να δημιουργήσετε το διακριτικό JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Μόλις έχουμε το διακριτικό JWT, μπορούμε να χρησιμοποιήσουμε την ακόλουθη εντολή για να μετατρέψουμε το PDF σε κείμενο εξάγοντας όλο το περιεχόμενο κειμένου. Η έξοδος αποθηκεύεται ως αρχείο απλού κειμένου στην τοπική μονάδα δίσκου.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

Το δείγμα που χρησιμοποιείται στο παραπάνω παράδειγμα μπορεί να ληφθεί από το awesomeTable.pdf.

Σύναψη

Η εξαγωγή κειμένου από έγγραφα PDF είναι μια κρίσιμη απαίτηση σε έναν κόσμο γεμάτο με ψηφιακές πληροφορίες. Στην εξερεύνηση αυτής της διαδικασίας, εξετάσαμε δύο δυναμικές διαδρομές: μία μέσω του ευέλικτου Aspose.PDF Cloud SDK για Python και η άλλη μέσω του ισχυρού συνδυασμού εντολών Aspose.PDF Cloud και cURL.

Και οι δύο προσεγγίσεις γεφυρώνουν το χάσμα μεταξύ στατικού περιεχομένου PDF και δυναμικού κειμένου, βελτιώνοντας τον τρόπο διαχείρισης, ανάλυσης και χρήσης ψηφιακών πληροφοριών. Είτε επιλέξετε την πολυπλοκότητα του SDK είτε την απλότητα των εντολών cURL, και οι δύο οδοί οδηγούν σε αποτελεσματική μετατροπή PDF σε κείμενο, δίνοντάς σας τη δυνατότητα να ξεκλειδώσετε τον πλούτο των δεδομένων κειμένου που κρύβονται στα έγγραφα PDF.

Σχετικά Άρθρα

Συνιστούμε επίσης να επισκεφθείτε τους παρακάτω συνδέσμους για να μάθετε περισσότερα σχετικά με: