PDF OCR

PDF fajls jintużaw ħafna fuq l-internet għall-kondiviżjoni ta’ informazzjoni u data. Huma pjuttost popolari minħabba li jżommu l-fedeltà tad-dokumenti meta jaraw fuq kwalunkwe pjattaforma. Madankollu, m’għandniex kontroll fuq is-sors u xi fajls huma kondiviżi f’format skennjat. Kultant taqbad immaġini bħala PDF u aktar tard ikollok bżonn tiġbed il-kontenut mill-fajl. Allura soluzzjoni vijabbli hija li twettaq operazzjoni OCR u estratt it-test. Madankollu, wara l-operazzjoni OCR, jekk għandek bżonn tippreserva l-fajl, allura l-konverżjoni għall-format PDF hija soluzzjoni vijabbli. F’dan l-artikolu, se niddiskutu l-passi dwar kif tikkonverti PDF skannjat għal PDF Test bl-użu ta ‘Python.

OCR PDF API

Aspose.PDF Cloud SDK għal Python huwa wrapper madwar Aspose.PDF Cloud. Jippermettilek twettaq il-kapaċitajiet kollha tal-ipproċessar tal-fajl PDF fl-applikazzjoni Python. Immanipula fajls PDF mingħajr Adobe Acrobat jew kwalunkwe applikazzjoni oħra. Allura sabiex tuża l-SDK, l-ewwel pass huwa l-installazzjoni tiegħu, u huwa disponibbli biex jitniżżel fuq PIP u GitHub repożitorju. Issa tesegwixxi l-kmand li ġej fuq il-pront tat-terminal/kmand biex tinstalla l-aħħar verżjoni tal-SDK fis-sistema.

 pip install asposepdfcloud

MS Visual Studio

Tista ‘wkoll żżid direttament ir-referenza fil-proġett Python tiegħek fi ħdan il-proġett Visual Studio. Jekk jogħġbok fittex asposepdfcloud bħala pakkett taħt it-tieqa tal-ambjent Python. Jekk jogħġbok segwi l-passi numerati fl-immaġni hawn taħt biex tlesti l-proċess ta ‘installazzjoni.

Aspose.PDF Cloud Python

Image 1:- Aspose.PDF Cloud SDK għall-pakkett Python.

Aspose.Cloud Dashboard

Peress li l-APIs tagħna huma aċċessibbli biss għal persuni awtorizzati, għalhekk il-pass li jmiss huwa li toħloq kont fuq Aspose.Cloud dashboard. Jekk għandek kont GitHub jew Google, sempliċement Irreġistra jew, ikklikkja fuq il-buttuna Oħloq Kont ġdid u ipprovdi l-informazzjoni meħtieġa. Issa idħol fid-dashboard billi tuża kredenzjali u jespandi s-sezzjoni tal-Applikazzjonijiet mid-dashboard u skrollja ’l isfel lejn it-taqsima tal-Kredenzjali tal-Klijent biex tara d-dettalji tal-ID tal-Klijent u tas-Sigriet tal-Klijent.

Kredenzjali tal-Klijent

Image 2:- Kredenzjali tal-klijenti fuq Aspose.Cloud dashboard.

PDF ta’ l-immaġni għal PDF li jista’ jitfittex f’Python

Jekk jogħġbok segwi l-passi mogħtija hawn taħt biex twettaq l-operazzjoni OCR fuq dokument PDF skannjat u mbagħad issalvah bħala li jista’ jitfittex (agħmel pdf li jista’ jitfittex). Dawn il-passi jgħinuna niżviluppaw OCR onlajn b’xejn bl-użu ta’ Python.

  • L-ewwel, irridu noħolqu eżempju tal-klassi ApiClient filwaqt li nipprovdu Client ID Client Secret bħala argumenti
  • It-tieni, oħloq eżempju ta ‘klassi PdfApi li tieħu l-oġġett ApiClient bħala argument ta’ input
  • Issa sejjaħ il-metodu putsearchabledocument(..) tal-klassi PdfApi li tieħu l-isem PDF tad-dħul u parametru fakultattiv li jindika l-lingwa tal-magna OCR.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # toħloq istanza PdfApi filwaqt li tgħaddi PdfApiClient bħala argument
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # ċempel l-API biex twettaq operazzjoni OCR u ssalva l-output fil-ħażna tas-sħab
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # ipprintja l-messaġġ fil-console (mhux obbligatorju)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Preview PDF OCR

Image 3:- Preview tal-operazzjoni PDF OCR.

Fl-immaġni ta ‘hawn fuq, il-porzjon tax-xellug jindika l-fajl PDF skennjat tad-dħul u l-porzjon fuq in-naħa tal-lemin turi preview tal-PDF ibbażat fuq it-test li jirriżulta. Il-fajls tal-kampjun użati fl-eżempju ta’ hawn fuq jistgħu jitniżżlu minn image-based-pdf-sample.pdf u OCR-Result.pdf.

OCR onlajn bl-użu tal-Kmandi tal-cURL

L-APIs REST jistgħu jiġu aċċessati wkoll permezz ta ‘kmandi cURL u peress li l-APIs Cloud tagħna huma bbażati fuq arkitettura REST, għalhekk nistgħu nużaw ukoll il-kmand cURL biex inwettqu PDF OCR onlajn. Madankollu, qabel ma nipproċedu bl-operazzjoni ta ‘konverżjoni, għandna bżonn niġġeneraw JSON Web Token (JWT) ibbażat fuq il-kredenzjali tal-klijent individwali tiegħek speċifikati fuq Aspose.Cloud dashboard. Huwa obbligatorju għaliex l-APIs tagħna huma aċċessibbli biss għall-utenti reġistrati. Jekk jogħġbok wettaq il-kmand li ġej biex tiġġenera t-token JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ladarba jkollna t-token JWT, jekk jogħġbok wettaq il-kmand li ġej biex twettaq l-operazzjoni OCR u ssalva l-output fl-istess ħażna tas-sħab.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Konklużjoni

F’dan l-artikolu, iddiskutejna l-passi għall-Immaġini PDF għal PDF Fittex bl-użu ta ‘snippet tal-kodiċi Python. Esplorajna wkoll id-dettalji dwar kif twettaq OCR Online billi tuża l-kmandi tal-cURL. Peress li l-SDKs tal-cloud tagħna huma żviluppati taħt liċenzja MIT, għalhekk tista’ tniżżel is-snippet tal-kodiċi sħiħ minn GitHub u taġġornaha skont ir-rekwiżiti tiegħek. Nirrakkomandawlek ħafna li tesplora l-Gwida għall-Iżviluppaturi biex titgħallem aktar dwar karatteristiċi eċċitanti oħra li qed jiġu offruti bħalissa minn Cloud API.

F’każ li għandek xi mistoqsijiet relatati jew tiltaqa’ ma’ xi kwistjonijiet waqt li tuża l-APIs tagħna, jekk jogħġbok tħossok liberu li tikkuntattjana permezz tal-forum ta’ appoġġ għall-klijenti b’xejn.

Artikoli Relatati

Nissuġġerixxu wkoll li tgħaddi mill-artikoli li ġejjin biex titgħallem aktar dwarhom