PDF OCR

Ang PDF nga mga file kaylap nga gigamit sa internet alang sa kasayuran ug pagpaambit sa datos. Popular sila tungod kay gipadayon nila ang pagkamatinud-anon sa mga dokumento kung nagtan-aw sa bisan unsang plataporma. Bisan pa, wala kami kontrol sa gigikanan ug ang pipila nga mga file gipaambit sa gi-scan nga format. Usahay makuha nimo ang usa ka imahe ingon usa ka PDF ug sa ulahi kinahanglan nimo nga makuha ang sulud gikan sa file. Mao nga ang usa ka praktikal nga solusyon mao ang paghimo sa usa ka operasyon sa OCR ug pagkuha sa teksto. Bisan pa, pagkahuman sa operasyon sa OCR, kung kinahanglan nimo nga mapreserbar ang file, nan ang pagkakabig sa format nga PDF usa ka praktikal nga solusyon. Niini nga artikulo, hisgutan namon ang mga lakang kung giunsa ang pag-convert sa usa ka scan nga PDF sa Text PDF gamit ang Python.

OCR PDF API

Aspose.PDF Cloud SDK para sa Python kay usa ka wrapper sa palibot sa Aspose.PDF Cloud. Gitugotan ka niini nga mahimo ang tanan nga mga kapabilidad sa pagproseso sa PDF file sa sulod sa aplikasyon sa Python. Pagmaniobra sa mga file nga PDF nga wala ang Adobe Acrobat o bisan unsang ubang aplikasyon. Mao nga aron magamit ang SDK, ang una nga lakang mao ang pag-install niini, ug magamit kini aron ma-download sa PIP ug GitHub nga tipiganan. Karon ipatuman ang mosunod nga sugo sa terminal/command prompt aron i-install ang pinakabag-o nga bersyon sa SDK sa sistema.

 pip install asposepdfcloud

MS Visual Studio

Mahimo usab nimo nga direktang idugang ang pakisayran sa imong proyekto sa Python sulod sa proyekto sa Visual Studio. Palihug pangitaa ang asposepdfcloud ingon usa ka pakete sa ilawom sa bintana sa palibot sa Python. Palihug sunda ang mga lakang nga ginumero sa imahe sa ubos aron makompleto ang proseso sa pag-install.

Aspose.PDF Cloud Python

Hulagway 1:- Aspose.PDF Cloud SDK alang sa Python package.

Aspose.Cloud Dashboard

Tungod kay ang among mga API ma-access lamang sa mga awtorisado nga tawo, mao nga ang sunod nga lakang mao ang paghimo og account sa Aspose.Cloud dashboard. Kung naa kay GitHub o Google nga account, Pag-sign Up lang o, pag-klik sa Paghimo og bag-ong Account nga buton ug ihatag ang gikinahanglan nga impormasyon. Karon pag-log in sa dashboard gamit ang mga kredensyal ug palapad ang seksyon sa Mga Aplikasyon gikan sa dashboard ug pag-scroll paubos padulong sa seksyon sa Mga Kredensyal sa Kliyente aron makita ang mga detalye sa ID sa Kliyente ug Sekreto sa Kliyente.

Mga Kredensyal sa Kliyente

Hulagway 2:- Mga kredensyal sa kliyente sa Aspose.Cloud dashboard.

Image PDF sa Searchable PDF sa Python

Palihug sunda ang mga lakang nga gihatag sa ubos aron mahimo ang OCR nga operasyon sa usa ka gi-scan nga PDF nga dokumento ug dayon i-save kini ingon usa ka makit-an (himoa nga makit-an ang pdf). Kini nga mga lakang makatabang kanamo sa paghimo og libre nga online OCR gamit ang Python.

  • Una, kinahanglan naton maghimo usa ka pananglitan sa klase sa ApiClient samtang naghatag sa Client ID Client Secret isip mga argumento
  • Ikaduha, paghimo og usa ka pananglitan sa PdfApi nga klase nga nagkuha sa ApiClient object isip input argument
  • Karon tawga ang putsearchabledocument(..) nga pamaagi sa PdfApi nga klase nga nagkuha sa input nga PDF nga ngalan ug usa ka opsyonal nga parameter nga nagpaila sa pinulongan sa OCR nga makina.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # paghimo PdfApi nga pananglitan samtang gipasa ang PdfApiClient isip argumento
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # Tawga ang API aron mahimo ang operasyon sa OCR ug i-save ang output sa pagtipig sa panganod
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # i-print ang mensahe sa console (opsyonal)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR preview

Hulagway 3: - Pag-preview sa PDF OCR nga operasyon.

Sa hulagway sa ibabaw, ang wala nga bahin nagpaila sa input scanned PDF file ug ang bahin sa tuo nga kilid nagpakita sa preview sa resulta nga text-based PDF. Ang sampol nga mga file nga gigamit sa pananglitan sa ibabaw mahimong ma-download gikan sa image-based-pdf-sample.pdf ug OCR-Result.pdf.

OCR online gamit ang cURL Commands

Ang REST APIs mahimo usab nga ma-access pinaagi sa cURL commands ug ingon nga ang among Cloud APIs gibase sa REST nga arkitektura, mao nga magamit usab namo ang cURL command aron mahimo ang PDF OCR online. Bisan pa, sa dili pa magpadayon sa operasyon sa pagkakabig, kinahanglan namon nga maghimo usa ka JSON Web Token (JWT) base sa imong indibidwal nga mga kredensyal sa kliyente nga gipiho sa Aspose.Cloud dashboard. Kini mao ang mandatory tungod kay ang atong mga API ma-access lamang sa mga rehistradong tiggamit. Palihug ipatuman ang mosunod nga sugo aron makamugna ang JWT token.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kung naa na namo ang JWT token, palihog ipatuman ang mosunod nga command para mabuhat ang OCR operation ug i-save ang output sa samang cloud storage.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Konklusyon

Niini nga artikulo, among gihisgutan ang mga lakang sa Image PDF ngadto sa Searchable PDF gamit ang Python code snippet. Gisuhid usab namo ang mga detalye kung unsaon pagbuhat ang OCR Online gamit ang mga cURL commands. Ingon nga ang among mga cloud SDK gihimo ubos sa lisensya sa MIT, aron mahimo nimong i-download ang kompleto nga snippet sa code gikan sa GitHub ug i-update kini sumala sa imong mga kinahanglanon. Labi namong girekomendar nimo nga tukion ang Developer Guide para makat-on pa bahin sa ubang kulbahinam nga feature nga gitanyag karon sa Cloud API.

Kung adunay ka may kalabutan nga mga pangutana o makasugat ka og bisan unsang mga isyu samtang naggamit sa among mga API, palihug ayaw pagduhaduha sa pagkontak kanamo pinaagi sa libre nga forum sa suporta sa kostumer.

May Kalabutan nga mga Artikulo

Gisugyot usab namo nga susihon ang mosunod nga mga artikulo aron makat-on pa mahitungod sa