PDF OCR

PDF file digunakake akeh liwat internet kanggo informasi lan enggo bareng data. Dheweke cukup populer amarga njaga kasetyan dokumen nalika ndeleng ing platform apa wae. Nanging, kita ora duwe kontrol liwat sumber lan sawetara file sing dienggo bareng ing format pindai. Kadhangkala sampeyan njupuk gambar minangka PDF lan mengko sampeyan kudu extract isi saka file. Dadi solusi sing bisa ditindakake yaiku nindakake operasi OCR lan ngekstrak teks kasebut. Nanging, sawise operasi OCR, yen sampeyan kudu ngreksa file, banjur konversi menyang format PDF minangka solusi sing bisa ditindakake. Ing artikel iki, kita bakal ngrembug babagan cara ngowahi PDF sing dipindai dadi Teks PDF nggunakake Python.

OCR PDF API

Aspose.PDF Cloud SDK kanggo Python minangka bungkus ing Aspose.PDF Cloud. Iki ngidini sampeyan nindakake kabeh kemampuan pangolahan file PDF ing aplikasi Python. Manipulasi file PDF tanpa Adobe Acrobat utawa aplikasi liyane. Dadi kanggo nggunakake SDK, langkah pisanan yaiku instalasi, lan kasedhiya kanggo diundhuh liwat gudang PIP lan GitHub. Saiki nglakokake printah ing ngisor iki ing terminal / command prompt kanggo nginstal versi paling anyar saka SDK ing sistem.

 pip install asposepdfcloud

MS Visual Studio

Sampeyan uga bisa langsung nambah referensi ing project Python ing project Visual Studio. Mangga nelusuri asposepdfcloud minangka paket ing jendhela lingkungan Python. Mangga tindakake langkah-langkah nomer ing gambar ing ngisor iki kanggo ngrampungake proses instalasi.

Aspose.PDF Cloud Python

Gambar 1: - Aspose.PDF Cloud SDK kanggo paket Python.

Aspose.Cloud Dashboard

Amarga API kita mung bisa diakses kanggo wong sing sah, mula langkah sabanjure yaiku nggawe akun ing dasbor Aspose.Cloud. Yen sampeyan duwe akun GitHub utawa Google, cukup Ndaftar utawa, klik tombol Gawe Akun anyar banjur wenehi informasi sing dibutuhake. Saiki mlebu menyang dashboard nggunakake kredensial lan nggedhekake bagean Aplikasi saka dashboard banjur gulung mudhun menyang bagean Kredensial Klien kanggo ndeleng ID Klien lan rincian Rahasia Klien.

Kredensial Klien

Gambar 2:- Kredensial klien ing dasbor Aspose.Cloud.

Gambar PDF menyang PDF sing Bisa Ditelusuri ing Python

Tututi langkah-langkah ing ngisor iki kanggo nindakake operasi OCR ing dokumen PDF sing dipindai banjur simpen minangka sing bisa ditelusuri (gawe pdf bisa ditelusuri). Langkah-langkah iki mbantu kita ngembangake OCR online gratis nggunakake Python.

  • Pisanan, kita kudu nggawe conto kelas ApiClient nalika nyedhiyakake Rahasia Klien ID Klien minangka argumen
  • Kapindho, gawe conto kelas PdfApi sing njupuk obyek ApiClient minangka argumen input
  • Saiki nelpon metode putsearchabledocument(..) kelas PdfApi sing njupuk jeneng PDF input lan parameter opsional sing nuduhake basa mesin OCR.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # nggawe conto PdfApi nalika ngliwati PdfApiClient minangka argumen
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # nelpon API kanggo nindakake operasi OCR lan nyimpen output ing panyimpenan maya
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # pesen print ing konsol (opsional)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Pratinjau PDF OCR

Gambar 3:- Pratinjau operasi PDF OCR.

Ing gambar ing ndhuwur, sisih kiwa nuduhake file PDF sing dipindai input lan bagean ing sisih tengen nuduhake pratinjau PDF adhedhasar teks. File sampel sing digunakake ing conto ing ndhuwur bisa diundhuh saka image-based-pdf-sample.pdf lan OCR-Result.pdf.

OCR online nggunakake CURL Commands

API REST uga bisa diakses liwat perintah cURL lan minangka Cloud API adhedhasar arsitektur REST, mula kita uga bisa nggunakake perintah cURL kanggo nindakake PDF OCR online. Nanging, sadurunge nerusake operasi konversi, kita kudu ngasilake JSON Web Token (JWT) adhedhasar kredensial klien individu sing ditemtokake ing dasbor Aspose.Cloud. Iki wajib amarga API kita mung bisa diakses dening pangguna sing wis kadhaptar. Mangga nglakokake printah ing ngisor iki kanggo ngasilake token JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sawise kita duwe token JWT, bukak printah ing ngisor iki kanggo nindakake operasi OCR lan simpen output ing panyimpenan maya sing padha.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Kesimpulan

Ing artikel iki, kita wis ngrembug langkah-langkah kanggo Gambar PDF menyang PDF sing bisa ditelusuri nggunakake potongan kode Python. Kita uga wis njelajah rincian babagan cara nindakake OCR Online nggunakake perintah cURL. Amarga SDK awan kita dikembangake miturut lisensi MIT, mula sampeyan bisa ndownload potongan kode lengkap saka GitHub lan nganyari miturut kabutuhan sampeyan. Disaranake sampeyan njelajah Pandhuan Pangembang kanggo sinau luwih lengkap babagan fitur menarik liyane sing saiki ditawakake Cloud API.

Yen sampeyan duwe pitakon sing gegandhengan utawa nemoni masalah nalika nggunakake API, hubungi kita liwat forum dhukungan pelanggan gratis.

Artikel sing gegandhengan

Kita uga menehi saran supaya maca artikel ing ngisor iki kanggo sinau luwih lengkap