OCR i bhformáid pdf

Úsáidtear comhaid PDF go forleathan ar an idirlíon chun faisnéis agus sonraí a chomhroinnt. Tá an-tóir orthu mar go gcoimeádann siad dílseacht doiciméad agus iad ag breathnú ar aon ardán. Mar sin féin, níl aon smacht againn ar an bhfoinse agus roinntear roinnt comhad i bhformáid scanta. Uaireanta glacann tú íomhá mar PDF agus ina dhiaidh sin is gá duit an t-ábhar a bhaint as an gcomhad. Mar sin is réiteach inmharthana é oibríocht OCR a dhéanamh agus an téacs a bhaint as. Mar sin féin, tar éis oibriú OCR, más gá duit an comhad a chaomhnú, ansin is réiteach inmharthana é an t-athrú go formáid PDF. San Airteagal seo, táimid chun na céimeanna a phlé maidir le conas PDF scanta a thiontú go Téacs PDF ag baint úsáide as Python.

OCR PDF API

Aspose.PDF Cloud SDK do Python is fillteán timpeall Aspose.PDF Cloud. Cuireann sé ar do chumas gach cumas próiseála comhaid PDF a dhéanamh laistigh den fheidhmchlár Python. Ionramháil comhaid PDF gan Adobe Acrobat nó aon fheidhmchlár eile. Mar sin, chun an SDK a úsáid, is é an chéad chéim é a shuiteáil, agus tá sé ar fáil le híoslódáil thar PIP agus GitHub stór. Anois déan an t-ordú seo a leanas ar an gcríochfort / ordú leid chun an leagan is déanaí de SDK a shuiteáil ar an gcóras.

 pip install asposepdfcloud

MS Visual Studio

Is féidir leat freisin an tagairt i do thionscadal Python a chur leis go díreach laistigh den tionscadal Visual Studio. Déan cuardach asposepdfcloud mar phacáiste faoi fhuinneog timpeallacht Python. Lean na céimeanna atá uimhrithe san íomhá thíos chun an próiseas suiteála a chríochnú.

Aspose.PDF Scamall Python

Íomhá 1:- Aspose.PDF Cloud SDK do phacáiste Python.

Painéal Aspose.Cloud

Ós rud é nach bhfuil rochtain ag ár n-APIanna ach ag daoine údaraithe, mar sin is é an chéad chéim eile ná cuntas a chruthú ar deais Aspose.Cloud. Má tá GitHub nó Cuntas Google agat, níl le déanamh ach Cláraigh nó, cliceáil ar an gcnaipe Cruthaigh Cuntas nua agus cuir an fhaisnéis riachtanach ar fáil. Anois logáil isteach ar an painéal ag baint úsáide as dintiúir agus leathnaigh an rannán Feidhmchláir ón deais agus scrollaigh síos i dtreo an rannáin Dintiúir Cliant chun sonraí ID Cliant agus Rúnda an Chliaint a fheiceáil.

Dintiúir Cliant

Íomhá 2:- Dintiúir an chliaint ar phainéal Aspose.Cloud.

Íomhá PDF go PDF Inchuardaithe i Python

Lean na céimeanna a thugtar thíos le do thoil chun oibriú OCR a dhéanamh ar dhoiciméad PDF scanta agus ansin é a shábháil mar inchuardaithe (déan an pdf inchuardaithe). Cuidíonn na céimeanna seo linn OCR ar líne saor in aisce a fhorbairt ag baint úsáide as Python.

  • Ar dtús, ní mór dúinn sampla den rang ApiClient a chruthú agus Rún Cliant ID Cliant a sholáthar mar argóintí
  • Ar an dara dul síos, cruthaigh sampla d’aicme PdfApi a thógann réad ApiClient mar argóint ionchuir
  • Anois glaoigh ar an modh putsearchabledocument(..) den rang PdfApi a thógann ainm PDF ionchuir agus paraiméadar roghnach a léiríonn teanga an innill OCR.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # cruthaigh mar shampla PdfApi agus PdfApiClient á rith mar argóint
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # glaoch ar an API chun oibríocht OCR a dhéanamh agus an t-aschur a shábháil i stóráil scamall
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # priontáil teachtaireacht sa chonsól (roghnach)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Pdf OCR réamhamharc

Íomhá 3:- Réamhamharc ar oibríocht PDF OCR.

San íomhá thuas, seasann an chuid ar chlé an comhad PDF a scanadh ionchuir agus taispeánann an chuid ar an taobh deas réamhamharc ar an PDF téacs-bhunaithe dá bharr. Is féidir na comhaid shamplacha a úsáidtear sa sampla thuas a íoslódáil ó image-based-pdf-sample.pdf agus OCR-Result.pdf.

OCR ar líne ag baint úsáide as Orduithe CURL

Is féidir teacht ar na REST APIs freisin trí orduithe cURL agus toisc go bhfuil ár Cloud APIs bunaithe ar ailtireacht REST, mar sin is féidir linn an t-ordú cURL a úsáid freisin chun PDF OCR a dhéanamh ar líne. Mar sin féin, sula rachaimid ar aghaidh le hoibriú comhshó, ní mór dúinn JSON Web Token (JWT) a ghiniúint bunaithe ar do dhintiúir chliaint aonair a shonraítear thar phainéal Aspose.Cloud. Tá sé éigeantach toisc nach bhfuil ár n-API inrochtana ach d’úsáideoirí cláraithe. Rith an t-ordú seo a leanas chun an comhartha JWT a ghiniúint.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Nuair a bheidh an comhartha JWT againn, déan an t-ordú seo a leanas a fhorghníomhú chun an oibríocht OCR a dhéanamh agus an t-aschur a shábháil sa stóráil scamall céanna.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Conclúid

San Airteagal seo, tá plé déanta againn ar na céimeanna chun Íomhá PDF go PDF Inchuardaithe ag baint úsáide as Blúire cód Python. Tá iniúchadh déanta againn freisin ar na sonraí maidir le conas OCR Ar Líne a dhéanamh ag baint úsáide as na horduithe cURL. De réir mar a fhorbraítear ár SDKanna scamall faoi cheadúnas MIT, is féidir leat an bhlúire cód iomlán a íoslódáil ó GitHub agus é a nuashonrú de réir do riachtanais. Molaimid go mór duit iniúchadh a dhéanamh ar an Treoir Fhorbróirí chun tuilleadh a fhoghlaim faoi ghnéithe spreagúla eile atá á dtairiscint ag Cloud API faoi láthair.

I gcás go bhfuil aon cheist ghaolmhar agat nó má bhíonn aon fhadhbanna agat agus ár n-APIanna á n-úsáid agat, ná bíodh drogall ort teagmháil a dhéanamh linn tríd an fóram tacaíochta custaiméara saor in aisce.

Airteagail Ghaolmhara

Molaimid freisin dul tríd na hailt seo a leanas chun níos mó a fhoghlaim faoi