Extrahieren Sie Text aus PDF mithilfe der Python REST-API

PDF in Text — So konvertieren Sie PDF in Python in Text

In der heutigen digitalen Welt gibt es eine Fülle von Informationen und die Möglichkeit, Text aus PDF Dokumenten zu extrahieren, ist nicht nur eine Annehmlichkeit, sondern eine Notwendigkeit geworden. Stellen Sie sich vor, Sie durchsuchen eine lange PDF-Datei auf der Suche nach der entscheidenden Information, die Sie in Ihrer Recherche zitieren können, oder Sie verwalten ein Repository von Dokumenten und versuchen, Daten für die Analyse zu extrahieren. In diesen und vielen anderen Szenarien erweist sich die Möglichkeit, PDF-Inhalte mühelos in einfachen Text umzuwandeln, als bahnbrechend. Dieser Artikel untersucht den tiefgreifenden Zweck und die unbestreitbaren Vorteile der Textextraktion aus PDFs mithilfe des Python Cloud SDK. Diese Transformation ermöglicht es Einzelpersonen und Organisationen, digitale Inhalte in einer Welt, in der Informationen von großer Bedeutung sind, effizient zu verwalten, zu analysieren und zu nutzen.

PDF zu Text-Konvertierung – REST-API
Extrahieren Sie Text aus PDF in Python
PDF zu Text-Konvertierung mit dem cURL-Befehl

PDF zu Text-Konvertierung – REST-API

Mit dem Aspose.PDF Cloud SDK für Python wird die Textextraktion aus PDF Dokumenten nahtlos und effizient. Mit diesem vielseitigen SDK können Sie PDF-Inhalte mühelos in Klartext umwandeln und so die in diesen digitalen Dokumenten gespeicherten Informationen freigeben.

Das Cloud SDK steht zum kostenlosen Download über das PIP und GitHub-Repository zur Verfügung. Führen Sie nun den folgenden Befehl im Terminal/in der Eingabeaufforderung aus, um die neueste Version des SDK zu installieren:

 pip install asposepdfcloud

Wenn Sie PyCharm IDE verwenden, können Sie das SDK direkt als Abhängigkeit zu Ihrem Projekt hinzufügen.

Datei ->Einstellungen ->Projekt ->Python-Interpreter ->asposepdfcloud

Nach der Installation ist der nächste große Schritt ein kostenloses Abonnement unserer Cloud-Dienste über das Aspose.Cloud-Dashboard. Wenn Sie ein GitHub oder Google-Konto haben, melden Sie sich einfach an oder klicken Sie auf die Schaltfläche Neues Konto erstellen. Melden Sie sich jetzt beim Dashboard an und erhalten Sie Ihre personalisierte Client-ID und Ihre Client Secret-Details.

Extrahieren Sie Text aus PDF in Python

Befolgen Sie die nachstehenden Anweisungen, um mithilfe des Python SDK Text aus PDF Dokumenten zu extrahieren.

Erstellen Sie zunächst eine Instanz der Klasse ApiClient und geben Sie als Argumente die Client-ID und das Client-Geheimnis an.
Zweitens erstellen Sie eine Instanz der PdfApi Klasse, die ein ApiClient Objekt als Eingabeargument verwendet.
Rufen Sie nun die Methode gettext(…) auf und geben Sie die Koordinaten LLX, LLY, URX und URY an.

def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # Erstellen Sie eine PdfApi-Instanz und übergeben Sie dabei PdfApiClient als Argument
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Rufen Sie die Methode zum Extrahieren von Text auf
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # Nachricht in der Konsole drucken (optional)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

Vorschau der Konvertierung von PDF in Text — Bild 1: – PDF zu Text-Vorschau.

Falls Sie den Text aus einer bestimmten Seite des Dokuments extrahieren müssen, versuchen Sie es mit der API GetPageText, die die Seitennummer als Argument verwendet.

PDF zu Text-Konvertierung mit dem cURL-Befehl

Erleben Sie die nahtlose Umwandlung von PDF-Inhalten in Klartext mithilfe der leistungsstarken Kombination aus Aspose.PDF Cloud und cURL-Befehlen. Diese dynamische Integration vereinfacht nicht nur die Konvertierung von PDF in Text, sondern bietet auch mehrere Vorteile, die Ihr Dokumentenmanagement und Ihre Textextraktion verbessern.

Bitte beachten Sie, dass bei diesem Ansatz die Generierung eines JSON Web Token (JWT) auf Grundlage Ihrer Clientanmeldeinformationen Voraussetzung ist. Dieser Schritt ist obligatorisch, da unsere APIs nur für registrierte Benutzer zugänglich sind. Führen Sie den folgenden Befehl aus, um das JWT-Token zu generieren.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sobald wir das JWT-Token haben, können wir den folgenden Befehl verwenden, um PDF in Text umzuwandeln, indem wir den gesamten Textinhalt extrahieren. Die Ausgabe wird als reine Textdatei auf dem lokalen Laufwerk gespeichert.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

Das im obigen Beispiel verwendete Beispiel kann von awesomeTable.pdf heruntergeladen werden.

Abschluss

Die Extraktion von Text aus PDF Dokumenten ist in einer Welt voller digitaler Informationen eine entscheidende Voraussetzung. Bei unserer Untersuchung dieses Prozesses haben wir zwei dynamische Wege untersucht: einen über das vielseitige Aspose.PDF Cloud SDK für Python und den anderen über die leistungsstarke Kombination von Aspose.PDF Cloud und cURL-Befehlen.

Beide Ansätze schließen die Lücke zwischen statischem PDF-Inhalt und dynamischem Text und verbessern die Art und Weise, wie wir digitale Informationen verwalten, analysieren und nutzen. Egal, ob Sie sich für die Komplexität des SDK oder die Einfachheit der cURL-Befehle entscheiden, beide Wege führen zu einer effizienten Konvertierung von PDF in Text und ermöglichen Ihnen, die Fülle an Textdaten freizusetzen, die in PDF Dokumenten verborgen sind.

PDF zu Text-Konvertierung – REST-API#

Extrahieren Sie Text aus PDF in Python#

PDF zu Text-Konvertierung mit dem cURL-Befehl#

Abschluss#

Verwandte Artikel#

PDF zu Text-Konvertierung – REST-API

Extrahieren Sie Text aus PDF in Python

PDF zu Text-Konvertierung mit dem cURL-Befehl

Abschluss

Verwandte Artikel