PDF OCR

PDF mae ffeiliau’n cael eu defnyddio’n eang dros y rhyngrwyd ar gyfer rhannu gwybodaeth a data. Maent yn eithaf poblogaidd oherwydd eu bod yn cynnal ffyddlondeb dogfennau wrth edrych ar unrhyw lwyfan. Fodd bynnag, nid oes gennym reolaeth dros y ffynhonnell a rhennir rhai ffeiliau mewn fformat wedi’i sganio. Weithiau rydych chi’n dal delwedd fel PDF ac yn ddiweddarach mae angen i chi dynnu’r cynnwys o’r ffeil. Felly ateb ymarferol yw cyflawni gweithrediad OCR a thynnu’r testun. Fodd bynnag, ar ôl gweithrediad OCR, os oes angen i chi gadw’r ffeil, yna mae trosi i fformat PDF yn ddatrysiad ymarferol. Yn yr erthygl hon, rydyn ni’n mynd i drafod y camau ar sut i drosi PDF wedi’i sganio i Testun PDF gan ddefnyddio Python.

OCR PDF API

Mae Aspose.PDF Cloud SDK ar gyfer Python yn ddeunydd lapio o gwmpas Aspose.PDF Cloud. Mae’n eich galluogi i berfformio’r holl alluoedd prosesu ffeiliau PDF o fewn y cymhwysiad Python. Trin ffeiliau PDF heb Adobe Acrobat nac unrhyw raglen arall. Felly er mwyn defnyddio’r SDK, y cam cyntaf yw ei osod, ac mae ar gael i’w lawrlwytho dros ystorfa PIP a GitHub. Nawr gweithredwch y gorchymyn canlynol ar yr anogwr terfynell / gorchymyn i osod y fersiwn diweddaraf o SDK ar y system.

 pip install asposepdfcloud

MS Stiwdio Weledol

Gallwch hefyd ychwanegu’r cyfeirnod yn uniongyrchol yn eich prosiect Python o fewn y prosiect Visual Studio. Chwiliwch asposepdfcloud fel pecyn o dan ffenestr amgylchedd Python. Dilynwch y camau sydd wedi’u rhifo yn y ddelwedd isod i gwblhau’r broses osod.

Aspose.PDF Cloud Python

Delwedd 1:- Aspose.PDF Cloud SDK ar gyfer pecyn Python.

Dangosfwrdd Aspose.Cloud

Gan mai dim ond pobl awdurdodedig y mae ein APIs yn hygyrch, felly y cam nesaf yw creu cyfrif ar dangosfwrdd Aspose.Cloud. Os oes gennych chi GitHub neu gyfrif Google, y cyfan sy’n rhaid i chi ei wneud yw Cofrestru neu, cliciwch ar y botwm Creu Cyfrif newydd a rhowch y wybodaeth ofynnol. Nawr mewngofnodwch i’r dangosfwrdd gan ddefnyddio tystlythyrau ac ehangwch yr adran Ceisiadau o’r dangosfwrdd a sgroliwch i lawr tuag at yr adran Manylion Cleient i weld manylion ID Cleient a Chyfrinach Cleient.

Manylion Cleient

Delwedd 2:- Manylion y cleient ar ddangosfwrdd Aspose.Cloud.

Delwedd PDF i PDF Chwiliadwy yn Python

Dilynwch y camau a roddir isod i berfformio gweithrediad OCR ar ddogfen PDF wedi’i sganio ac yna ei chadw fel chwiliadwy (gwnewch pdf yn chwiliadwy). Mae’r camau hyn yn ein helpu i ddatblygu OCR ar-lein rhad ac am ddim gan ddefnyddio Python.

  • Yn gyntaf, mae angen i ni greu enghraifft o ddosbarth ApiClient wrth ddarparu Cleient ID Client Secret fel dadleuon
  • Yn ail, crëwch enghraifft o ddosbarth PdfApi sy’n cymryd gwrthrych ApiClient fel dadl mewnbwn
  • Nawr ffoniwch y dull putsearchabledocument(..) o ddosbarth PdfApi sy’n cymryd enw PDF mewnbwn a pharamedr dewisol sy’n nodi iaith injan OCR.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # creu enghraifft PdfApi wrth basio PdfApiClient fel dadl
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # ffoniwch yr API i berfformio gweithrediad OCR ac arbed yr allbwn mewn storfa cwmwl
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # argraffu neges yn y consol (dewisol)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Rhagolwg OCR PDF

Delwedd 3:- Rhagolwg o weithrediad PDF OCR.

Yn y ddelwedd uchod, mae’r rhan chwith yn dynodi’r ffeil PDF wedi’i sganio ac mae’r rhan ar yr ochr dde yn dangos rhagolwg o’r PDF sy’n seiliedig ar destun canlyniadol. Gellir lawrlwytho’r ffeiliau sampl a ddefnyddir yn yr enghraifft uchod o image-based-pdf-sample.pdf ac OCR-Result.pdf.

OCR ar-lein gan ddefnyddio Gorchmynion CURL

Gellir cyrchu’r APIs REST hefyd trwy orchmynion cURL a chan fod ein APIs Cloud yn seiliedig ar bensaernïaeth REST, felly gallwn hefyd ddefnyddio’r gorchymyn cURL i berfformio OCR PDF ar-lein. Fodd bynnag, cyn bwrw ymlaen â gweithrediad trosi, mae angen i ni gynhyrchu Tocyn Gwe JSON (JWT) yn seiliedig ar eich tystlythyrau cleient unigol a nodir dros ddangosfwrdd Aspose.Cloud. Mae’n orfodol oherwydd bod ein APIs yn hygyrch i ddefnyddwyr cofrestredig yn unig. Gweithredwch y gorchymyn canlynol i gynhyrchu’r tocyn JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Unwaith y bydd gennym y tocyn JWT, gweithredwch y gorchymyn canlynol i gyflawni’r gweithrediad OCR ac arbed yr allbwn yn yr un storfa cwmwl.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Casgliad

Yn yr erthygl hon, rydym wedi trafod y camau i Delwedd PDF i PDF Chwiliadwy gan ddefnyddio pyt cod Python. Rydym hefyd wedi archwilio’r manylion ar sut i berfformio OCR Ar-lein gan ddefnyddio’r gorchmynion cURL. Wrth i’n SDKs cwmwl gael eu datblygu o dan drwydded MIT, felly gallwch lawrlwytho’r pyt cod cyflawn o GitHub a’i ddiweddaru yn unol â’ch gofynion. Rydym yn argymell yn gryf eich bod yn archwilio’r Canllaw i Ddatblygwyr i ddysgu mwy am nodweddion cyffrous eraill sy’n cael eu cynnig ar hyn o bryd gan Cloud API.

Rhag ofn bod gennych unrhyw ymholiadau cysylltiedig neu os byddwch chi’n dod ar draws unrhyw broblemau wrth ddefnyddio ein APIs, mae croeso i chi gysylltu â ni trwy’r fforwm cymorth cwsmeriaid am ddim.

Erthyglau Perthnasol

Rydym hefyd yn awgrymu mynd trwy’r erthyglau canlynol i ddysgu mwy amdanynt