PDF file digunakake akeh liwat internet kanggo informasi lan enggo bareng data. Dheweke cukup populer amarga njaga kasetyan dokumen nalika ndeleng ing platform apa wae. Nanging, kita ora duwe kontrol liwat sumber lan sawetara file sing dienggo bareng ing format pindai. Kadhangkala sampeyan njupuk gambar minangka PDF lan mengko sampeyan kudu extract isi saka file. Dadi solusi sing bisa ditindakake yaiku nindakake operasi OCR lan ngekstrak teks kasebut. Nanging, sawise operasi OCR, yen sampeyan kudu ngreksa file, banjur konversi menyang format PDF minangka solusi sing bisa ditindakake. Ing artikel iki, kita bakal ngrembug babagan cara ngowahi PDF sing dipindai dadi Teks PDF nggunakake Python.
- OCR PDF API
- Gambar PDF menyang PDF sing Bisa Ditelusuri ing Python
- OCR online nggunakake CURL Commands
OCR PDF API
Aspose.PDF Cloud SDK kanggo Python minangka bungkus ing Aspose.PDF Cloud. Iki ngidini sampeyan nindakake kabeh kemampuan pangolahan file PDF ing aplikasi Python. Manipulasi file PDF tanpa Adobe Acrobat utawa aplikasi liyane. Dadi kanggo nggunakake SDK, langkah pisanan yaiku instalasi, lan kasedhiya kanggo diundhuh liwat gudang PIP lan GitHub. Saiki nglakokake printah ing ngisor iki ing terminal / command prompt kanggo nginstal versi paling anyar saka SDK ing sistem.
pip install asposepdfcloud
MS Visual Studio
Sampeyan uga bisa langsung nambah referensi ing project Python ing project Visual Studio. Mangga nelusuri asposepdfcloud minangka paket ing jendhela lingkungan Python. Mangga tindakake langkah-langkah nomer ing gambar ing ngisor iki kanggo ngrampungake proses instalasi.
Aspose.Cloud Dashboard
Amarga API kita mung bisa diakses kanggo wong sing sah, mula langkah sabanjure yaiku nggawe akun ing dasbor Aspose.Cloud. Yen sampeyan duwe akun GitHub utawa Google, cukup Ndaftar utawa, klik tombol Gawe Akun anyar banjur wenehi informasi sing dibutuhake. Saiki mlebu menyang dashboard nggunakake kredensial lan nggedhekake bagean Aplikasi saka dashboard banjur gulung mudhun menyang bagean Kredensial Klien kanggo ndeleng ID Klien lan rincian Rahasia Klien.
Gambar PDF menyang PDF sing Bisa Ditelusuri ing Python
Tututi langkah-langkah ing ngisor iki kanggo nindakake operasi OCR ing dokumen PDF sing dipindai banjur simpen minangka sing bisa ditelusuri (gawe pdf bisa ditelusuri). Langkah-langkah iki mbantu kita ngembangake OCR online gratis nggunakake Python.
- Pisanan, kita kudu nggawe conto kelas ApiClient nalika nyedhiyakake Rahasia Klien ID Klien minangka argumen
- Kapindho, gawe conto kelas PdfApi sing njupuk obyek ApiClient minangka argumen input
- Saiki nelpon metode putsearchabledocument(..) kelas PdfApi sing njupuk jeneng PDF input lan parameter opsional sing nuduhake basa mesin OCR.
def ocrPDF():
try:
#Client credentials
client_secret = "406b404b2df649611e508bbcfcd2a77f"
client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# nggawe conto PdfApi nalika ngliwati PdfApiClient minangka argumen
pdf_api = PdfApi(pdf_api_client)
#input PDF file name
input_file = 'image-based-pdf-sample.pdf'
# nelpon API kanggo nindakake operasi OCR lan nyimpen output ing panyimpenan maya
response = pdf_api.put_searchable_document(name=input_file,lang='eng')
# pesen print ing konsol (opsional)
print('Image PDF successfully converted to Text PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)
Ing gambar ing ndhuwur, sisih kiwa nuduhake file PDF sing dipindai input lan bagean ing sisih tengen nuduhake pratinjau PDF adhedhasar teks. File sampel sing digunakake ing conto ing ndhuwur bisa diundhuh saka image-based-pdf-sample.pdf lan OCR-Result.pdf.
OCR online nggunakake CURL Commands
API REST uga bisa diakses liwat perintah cURL lan minangka Cloud API adhedhasar arsitektur REST, mula kita uga bisa nggunakake perintah cURL kanggo nindakake PDF OCR online. Nanging, sadurunge nerusake operasi konversi, kita kudu ngasilake JSON Web Token (JWT) adhedhasar kredensial klien individu sing ditemtokake ing dasbor Aspose.Cloud. Iki wajib amarga API kita mung bisa diakses dening pangguna sing wis kadhaptar. Mangga nglakokake printah ing ngisor iki kanggo ngasilake token JWT.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sawise kita duwe token JWT, bukak printah ing ngisor iki kanggo nindakake operasi OCR lan simpen output ing panyimpenan maya sing padha.
curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Kesimpulan
Ing artikel iki, kita wis ngrembug langkah-langkah kanggo Gambar PDF menyang PDF sing bisa ditelusuri nggunakake potongan kode Python. Kita uga wis njelajah rincian babagan cara nindakake OCR Online nggunakake perintah cURL. Amarga SDK awan kita dikembangake miturut lisensi MIT, mula sampeyan bisa ndownload potongan kode lengkap saka GitHub lan nganyari miturut kabutuhan sampeyan. Disaranake sampeyan njelajah Pandhuan Pangembang kanggo sinau luwih lengkap babagan fitur menarik liyane sing saiki ditawakake Cloud API.
Yen sampeyan duwe pitakon sing gegandhengan utawa nemoni masalah nalika nggunakake API, hubungi kita liwat forum dhukungan pelanggan gratis.
Artikel sing gegandhengan
Kita uga menehi saran supaya maca artikel ing ngisor iki kanggo sinau luwih lengkap