PDF OCR

PDF Dateie gi wäit iwwer den Internet benotzt fir Informatioun an Datenaustausch. Si sinn zimlech populär well se d’Vertraulechkeet vun Dokumenter behalen wann se op all Plattform kucken. Mir hunn awer keng Kontroll iwwer d’Quell an e puer Dateie ginn am gescannte Format gedeelt. Heiansdo erfaasst Dir e Bild als PDF a spéider musst Dir den Inhalt aus der Datei extrahéieren. Also eng viabel Léisung ass eng OCR Operatioun auszeféieren an den Text ze extrahieren. Wéi och ëmmer, no der OCR Operatioun, wann Dir d’Datei muss bewahren, dann ass d’Konversioun op PDF Format eng viabel Léisung. An dësem Artikel wäerte mir d’Schrëtt diskutéieren wéi Dir e gescannt PDF an Text PDF konvertéiert mat Python.

OCR PDF API

Aspose.PDF Cloud SDK fir Python ass e Wrapper ronderëm Aspose.PDF Cloud. Et erlaabt Iech all PDF Dateiveraarbechtungsfäegkeeten an der Python Applikatioun auszeféieren. Manipuléiert PDF Dateien ouni Adobe Acrobat oder all aner Applikatioun. Also fir d’SDK ze benotzen, ass den éischte Schrëtt seng Installatioun, an et ass verfügbar fir erofzelueden iwwer PIP an GitHub Repository. Fëllt elo de folgende Kommando op der Terminal / Kommandoprompt aus fir déi lescht Versioun vun SDK um System z’installéieren.

 pip install asposepdfcloud

MS Visual Studio

Dir kënnt och direkt d’Referenz an Ärem Python Projet am Visual Studio Projet addéieren. Sicht w.e.g. asposepdfcloud als Package ënner der Python Ëmfeldfenster. Follegt w.e.g. d’Schrëtt nummeréiert am Bild hei ënnen fir den Installatiounsprozess ofzeschléissen.

Aspose.PDF Cloud Python

Bild 1: - Aspose.PDF Cloud SDK fir Python Package.

Aspose.Cloud Dashboard

Well eis APIen nëmme fir autoriséiert Persounen zougänglech sinn, ass de nächste Schrëtt e Kont op Aspose.Cloud Dashboard ze kreéieren. Wann Dir GitHub oder Google Kont hutt, mellt Iech einfach un oder klickt op de Create a new Account Knäppchen a gitt déi erfuerderlech Informatioun. Login elo op den Dashboard mat Umeldungsinformatiounen an erweidert d’Applikatiounen Sektioun vum Dashboard a scrollt erof op d’Client Credentials Sektioun fir Client ID a Client Secret Detailer ze gesinn.

Client Umeldungsinformatioune

Bild 2: - Client Umeldungsinformatioune op Aspose.Cloud Dashboard.

Bild PDF op Sichbar PDF am Python

Follegt w.e.g. d’Schrëtt hei ënnen fir OCR Operatioun op engem gescannte PDF Dokument auszeféieren an et dann als Sichbar ze späicheren (maacht PDF sichtbar). Dës Schrëtt hëllefen eis gratis online OCR mat Python z’entwéckelen.

  • Als éischt musse mir eng Instanz vun der ApiClient Klass erstellen wärend Client ID Client Secret als Argumenter ubitt
  • Zweetens, erstellt eng Instanz vun der PdfApi Klass déi den ApiClient Objet als Input Argument hëlt
  • Rufft elo d’putsearchabledocument(..) Method vun der PdfApi Klass déi den Input PDF Numm an en optionalen Parameter hëlt deen d’Sprooch vum OCR Motor ugeet.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # Erstellt PdfApi Instanz wärend PdfApiClient als Argument passéiert
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # rufft d'API fir OCR Operatioun auszeféieren an d'Output an der Cloud Storage ze späicheren
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # Drécke Message an der Konsole (optional)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR Virschau

Bild 3: - Virschau vun PDF OCR Operatioun.

Am Bild hei uewen bezeechent de lénksen Deel d’Input gescannt PDF Datei an den Deel op der rietser Säit weist eng Virschau vum resultéierende textbaséierte PDF. D’Probedateien, déi am uewe genannte Beispill benotzt ginn, kënnen erofgeluede ginn vun image-based-pdf-sample.pdf an OCR-Result.pdf.

OCR online mat cURL Kommandoen

D’REST APIs kënnen och iwwer cURL Kommandoen zougänglech sinn a well eis Cloud APIs op REST Architektur baséieren, sou kënne mir och de cURL Kommando benotze fir PDF OCR online auszeféieren. Wéi och ëmmer, ier Dir mat der Konversiounsoperatioun viru geet, musse mir e JSON Web Token (JWT) generéieren baséiert op Ären individuellen Client Umeldungsinformatiounen, déi iwwer Aspose.Cloud Dashboard spezifizéiert sinn. Et ass obligatoresch well eis APIen nëmme fir registréiert Benotzer zougänglech sinn. Fëllt w.e.g. de folgende Kommando aus fir de JWT Token ze generéieren.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Wann mir de JWT Token hunn, fuert w.e.g. de folgende Kommando aus fir d’OCR Operatioun auszeféieren an d’Output an der selwechter Cloud Storage ze späicheren.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Conclusioun

An dësem Artikel hu mir d’Schrëtt fir Bild PDF op Sichbar PDF mat Python Code Snippet diskutéiert. Mir hunn och d’Detailer entdeckt wéi Dir OCR Online mat de cURL Kommandoen ausféiert. Wéi eis Cloud SDKs ënner MIT Lizenz entwéckelt ginn, sou kënnt Dir de komplette Code Snippet vun [GitHub] eroflueden 11 an aktualiséieren et no Ären Ufuerderungen. Mir recommandéieren Iech den Entwéckler Guide ze entdecken fir méi iwwer aner spannend Features ze léieren, déi momentan vun der Cloud API ugebuede ginn.

Am Fall wou Dir eng Zesummenhang Ufroen hutt oder Dir hutt Probleemer wärend Dir eis APIen benotzt, fillt Iech gratis eis iwwer de [gratis Clientssupport Forum] ze kontaktéieren.

Zesummenhang Artikelen

Mir proposéieren och duerch déi folgend Artikelen ze goen fir méi iwwer ze léieren