Ing jagad sing didorong data saiki, PDF wis dadi format sing penting kanggo nyimpen lan nuduhake dokumen. Nanging, ora kabeh PDF gampang digoleki utawa bisa diowahi, utamane sing adhedhasar gambar. Nalika urusan karo dokumen, iku pancene angel kanggo nyalin/extract sembarang informasi teks kanggo manipulasi luwih. Untunge, kanthi kekuwatan teknologi Optical Character Recognition (OCR), sampeyan bisa ngowahi PDF gambar dadi PDF sing bisa digoleki kanthi gampang. Ing blog teknis iki, kita bakal njelajah carane ngowahi OCR PDF dadi PDF sing bisa ditelusuri nggunakake macem-macem teknik, kanthi fokus khusus ing REST API. Kita uga bakal ngrembug babagan cara ngekstrak teks saka PDF OCR, menehi sampeyan pangerten lengkap babagan cara nggunakake teknologi OCR kanggo mbukak kunci potensial lengkap dokumen PDF sampeyan.
- OCR PDF nggunakake Java SDK
- Pindai PDF menyang PDF sing Bisa Digoleki nggunakake Java
- OCR Online nggunakake CURL Commands
OCR PDF nggunakake Java SDK
Aspose.PDF Cloud SDK for Java minangka API berbasis awan sing kuat sing nawakake macem-macem fitur lan kemampuan kanggo nggarap dokumen PDF. Salah sawijining fungsi utama yaiku kemampuan kanggo nindakake OCR ing PDF, sing bisa nyederhanakake proses ekstraksi teks saka PDF adhedhasar gambar lan nggawe PDF sing bisa ditelusuri. Kanthi antarmuka sing ramah pangguna lan dokumentasi lengkap, SDK iki nggampangake ngotomatisasi proses nindakake OCR ing PDF, ngirit wektu lan nambah produktivitas.
Salajengipun, API berbasis awan iki dirancang kanggo nangani macem-macem format input lan malah bisa ngenali teks tulisan tangan, dadi pilihan sing apik kanggo bisnis lan pangembang sing pengin nyepetake alur kerja dokumen. Saiki langkah pisanan yaiku nambah referensi ing proyek Jawa kanthi nambah rincian ing ngisor iki ing pom.xml proyek mbangun maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Yen sampeyan ora duwe akun sing wis ana, sampeyan kudu nggawe akun gratis liwat Aspose Cloud. Mlebet nggunakake akun sing mentas digawe lan goleki / gawe ID Klien lan Rahasia Klien ing Cloud Dashboard. Rincian kasebut dibutuhake ing bagean sabanjure.
Pindai PDF menyang PDF sing Bisa Digoleki nggunakake Java
Bagean iki nerangake rincian babagan carane ngowahi PDF sing dipindai dadi PDF sing bisa digoleki nggunakake potongan kode Java. Elinga yen Java Cloud SDK ndhukung pangenalan basa ing ngisor iki: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , utawa, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra utawa kombinasi eg,rus.
- Pisanan kita kudu nggawe obyek PdfApi, ing ngendi kita ngliwati rincian rahasia ClientID lan Klien minangka argumen
- Kapindho, nggawe conto kelas File kanggo mbukak PDF Gambar
- Katelu, nelpon cara uploadFile(…) kanggo ngunggah PDF input menyang panyimpenan maya
- Minangka PDF gambar kita ngemot teks basa Inggris, mula kita kudu nggawe obyek senar kanthi nilai “eng”
- Pungkasan, nelpon metode putSearchableDocument(…), sing mbutuhake input PDF lan kode basa minangka argumen.
Sawise kode kasil dieksekusi, PDF sing bisa digoleki disimpen ing panyimpenan awan
try
{
// Entuk ClientID lan ClientSecret saka https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// nggawe conto PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// input gambar dokumen PDF
String name = "ScannedPDF.pdf";
// Muat file saka sistem lokal
File file = new File(name);
// upload file menyang panyimpenan maya
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// basa sing digunakake ing gambar PDF
String lang = "eng";
// nindakake OCR ing dokumen PDF gambar
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// pesen sukses print
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
PDF pindai sing digunakake ing conto ing ndhuwur bisa diundhuh saka BusinessReport.pdf lan PDF sing bisa digoleki asil saka Converted.pdf
OCR Online nggunakake CURL Commands
Prentah cURL minangka salah sawijining pendekatan sing trep kanggo nelpon API REST. Dadi ing bagean iki, kita bakal nggunakake perintah cURL kanggo OCR online. Saiki, minangka prasyarat, kita kudu nggawe token akses JWT dhisik (adhedhasar kredensial klien) nalika nglakokake perintah ing ngisor iki.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sawise kita duwe token JWT, mangga printah ing ngisor iki kanggo nindakake OCR online lan ngowahi PDF Gambar dadi dokumen PDF sing bisa digoleki. File asil banjur disimpen ing panyimpenan maya.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Kesimpulan
Nindakake OCR ing PDF minangka proses kritis kanggo mbukak kunci potensial lengkap dokumen kasebut. Kanthi bantuan alat OCR berbasis awan kaya Aspose.PDF Cloud SDK kanggo Jawa, proses iki bisa disederhanakake lan otomatis, ngirit wektu lan nambah produktivitas. Kanthi nggunakake kekuwatan OCR, bisnis lan pangembang bisa ngowahi PDF adhedhasar gambar dadi PDF sing bisa ditelusuri, nggawe luwih gampang kanggo nggoleki, ngowahi, lan nuduhake. Cetha yen API iki nawakake macem-macem fitur lan kemampuan sing kuat kanggo nggarap PDF. Kanthi nuruti pandhuan langkah-langkah sing diwenehake ing blog teknis iki, sampeyan bisa miwiti OCR ing PDF lan njupuk alur kerja dokumen menyang tingkat sabanjure.
Sampeyan bisa uga nimbang ngakses API ing browser web nggunakake antarmuka swagger. Salajengipun, minangka SDK kita dibangun ing lisensi MIT, supaya kode sumber lengkap bisa diundhuh saka GitHub. Yen sampeyan nemoni masalah nalika nggunakake API, hubungi kita liwat forum dhukungan produk gratis.
Artikel sing gegandhengan
Disaranake ngunjungi tautan ing ngisor iki kanggo sinau luwih lengkap babagan: