PDF OCR

Fișierele PDF sunt utilizate pe scară largă pe internet pentru schimbul de informații și date. Sunt destul de populare deoarece mențin fidelitatea documentelor la vizualizarea pe orice platformă. Cu toate acestea, nu avem control asupra sursei și unele fișiere sunt partajate în format scanat. Uneori capturați o imagine ca PDF și mai târziu trebuie să extrageți conținutul din fișier. Deci, o soluție viabilă este efectuarea unei operații OCR și extragerea textului. Cu toate acestea, după operația OCR, dacă trebuie să păstrați fișierul, atunci conversia în format PDF este o soluție viabilă. În acest articol, vom discuta pașii despre cum să convertiți un PDF scanat în PDF text folosind Python.

OCR PDF API

Aspose.PDF Cloud SDK pentru Python este un înveliș în jurul Aspose.PDF Cloud. Vă permite să efectuați toate capabilitățile de procesare a fișierelor PDF în cadrul aplicației Python. Manipulați fișiere PDF fără Adobe Acrobat sau orice altă aplicație. Deci, pentru a utiliza SDK-ul, primul pas este instalarea acestuia și este disponibil pentru descărcare prin PIP și GitHub depozit. Acum executați următoarea comandă pe terminalul/promptul de comandă pentru a instala cea mai recentă versiune de SDK pe sistem.

 pip install asposepdfcloud

MS Visual Studio

De asemenea, puteți adăuga direct referința în proiectul dvs. Python în cadrul proiectului Visual Studio. Vă rugăm să căutați asposepdfcloud ca pachet în fereastra mediului Python. Vă rugăm să urmați pașii numerotați în imaginea de mai jos pentru a finaliza procesul de instalare.

Aspose.PDF Cloud Python

Imaginea 1:- Aspose.PDF Cloud SDK pentru pachetul Python.

Aspose.Cloud Dashboard

Deoarece API-urile noastre sunt accesibile numai persoanelor autorizate, următorul pas este să creați un cont pe Tabloul de bord Aspose.Cloud. Dacă aveți un cont GitHub sau Google, pur și simplu Înregistrați-vă sau faceți clic pe butonul Creați un cont nou și furnizați informațiile necesare. Acum conectați-vă la tabloul de bord utilizând acreditările și extindeți secțiunea Aplicații din tabloul de bord și derulați în jos către secțiunea Acreditări client pentru a vedea detalii despre ID-ul clientului și Secretul clientului.

Acreditările clientului

Imaginea 2:- Acreditările clientului pe tabloul de bord Aspose.Cloud.

Imagine PDF în PDF căutabil în Python

Vă rugăm să urmați pașii de mai jos pentru a efectua operația OCR pe un document PDF scanat și apoi salvați-l ca un document care poate fi căutat (faceți pdf căutabil). Acești pași ne ajută să dezvoltăm OCR online gratuit folosind Python.

  • În primul rând, trebuie să creăm o instanță a clasei ApiClient în timp ce furnizăm Client ID Client Secret ca argumente
  • În al doilea rând, creați o instanță a clasei PdfApi care ia obiectul ApiClient ca argument de intrare
  • Acum apelați metoda putsearchabledocument(..) din clasa PdfApi, care preia numele PDF de intrare și un parametru opțional care indică limba motorului OCR.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # creați instanța PdfApi în timp ce treceți PdfApiClient ca argument
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # apelați API-ul pentru a efectua operația OCR și pentru a salva rezultatul în stocarea în cloud
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # tipăriți mesajul în consolă (opțional)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Previzualizare PDF OCR

Imaginea 3: - Previzualizarea operațiunii PDF OCR.

În imaginea de mai sus, porțiunea din stânga indică fișierul PDF scanat de intrare, iar porțiunea din partea dreaptă arată o previzualizare a PDF-ului rezultat bazat pe text. Exemplele de fișiere utilizate în exemplul de mai sus pot fi descărcate de pe image-based-pdf-sample.pdf și OCR-Result.pdf.

OCR online folosind comenzile cURL

API-urile REST pot fi accesate și prin comenzi cURL și, deoarece API-urile noastre Cloud se bazează pe arhitectura REST, deci putem folosi și comanda cURL pentru a efectua PDF OCR online. Cu toate acestea, înainte de a continua operația de conversie, trebuie să generăm un JSON Web Token (JWT) pe baza acreditărilor individuale ale clientului specificate în tabloul de bord Aspose.Cloud. Este obligatoriu deoarece API-urile noastre sunt accesibile numai utilizatorilor înregistrați. Vă rugăm să executați următoarea comandă pentru a genera simbolul JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Odată ce avem jetonul JWT, vă rugăm să executați următoarea comandă pentru a efectua operația OCR și a salva rezultatul în aceeași stocare în cloud.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Concluzie

În acest articol, am discutat pașii pentru imaginea PDF în PDF căutabil folosind fragmentul de cod Python. De asemenea, am explorat detaliile despre cum să efectuați OCR online folosind comenzile cURL. Deoarece SDK-urile noastre cloud sunt dezvoltate sub licență MIT, puteți descărca fragmentul de cod complet de pe GitHub și îl puteți actualiza conform cerințelor dvs. Vă recomandăm cu căldură să explorați Ghidul dezvoltatorului pentru a afla mai multe despre alte funcții interesante oferite în prezent de Cloud API.

În cazul în care aveți întrebări sau întâmpinați probleme în timpul utilizării API-urilor noastre, nu ezitați să ne contactați prin forumul gratuit de asistență pentru clienți.

Articole similare

Vă sugerăm, de asemenea, să parcurgeți următoarele articole pentru a afla mai multe despre