Sa karon nga data-driven nga kalibutan, PDFs nahimong usa ka kinahanglanon nga pormat alang sa pagtipig ug pagpaambit sa mga dokumento. Bisan pa, dili tanan nga mga PDF dali nga makit-an o ma-edit, labi na kadtong gibase sa imahe. Kung nag-atubang sa mga dokumento, lisud gyud ang pagkopya / pagkuha sa bisan unsang impormasyon sa teksto para sa dugang nga pagmaniobra. Maayo na lang, uban sa gahum sa Optical Character Recognition (OCR) nga teknolohiya, mahimo nimo nga mabag-o ang mga imahe nga PDF sa mga makit-an nga PDF nga dali. Niining teknikal nga blog, among susihon kung giunsa ang pag-convert sa OCR PDF sa mapangita nga PDF gamit ang lainlaing mga teknik, nga adunay piho nga pagtutok sa REST API. Hisgutan usab namo kung unsaon pagkuha ang teksto gikan sa mga OCR PDF, nga maghatag kanimo ug komprehensibong pagsabot kung unsaon paggamit ang teknolohiya sa OCR aron maablihan ang tibuok potensyal sa imong mga dokumento sa PDF.
- OCR PDF gamit ang Java SDK
- Gi-scan nga PDF ngadto sa Mapangita nga PDF gamit ang Java
- OCR Online gamit ang cURL Commands
OCR PDF gamit ang Java SDK
Ang Aspose.PDF Cloud SDK para sa Java usa ka gamhanan nga cloud-based nga API nga nagtanyag ug halapad nga mga feature ug kapabilidad sa pagtrabaho uban sa PDF nga mga dokumento. Usa sa mga yawe nga gamit niini mao ang abilidad sa paghimo sa OCR sa mga PDF, nga makapasimple kaayo sa proseso sa pagkuha sa teksto gikan sa mga PDF nga nakabase sa imahe ug paghimo sa mga makit-an nga PDF. Uban sa user-friendly nga interface ug komprehensibo nga dokumentasyon, kini nga SDK nagpasayon sa pag-automate sa proseso sa pagpahigayon sa OCR sa mga PDF, pagdaginot sa oras ug pagdugang sa produktibidad.
Dugang pa, Kini nga cloud-based nga API gidesinyo sa pagdumala sa usa ka halapad nga lainlain nga mga format sa pag-input ug mahimo pa gani nga makaila sa sinulat sa kamot nga teksto, nga naghimo niini nga usa ka maayo kaayo nga pagpili alang sa mga negosyo ug mga developers nga nagtinguha sa pag-streamline sa ilang workflow sa dokumento. Karon ang unang lakang mao ang pagdugang sa iyang reperensiya sa Java nga proyekto pinaagi sa pagdugang sa mosunod nga mga detalye sa pom.xml sa maven build project.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Kung wala ka na nga account, kinahanglan nimo nga maghimo usa ka libre nga account sa Aspose Cloud. Pag-login gamit ang bag-ong nahimo nga account ug pagpangita/paghimo og Client ID ug Client Secret sa Cloud Dashboard. Kini nga mga detalye gikinahanglan sa sunod nga mga seksyon.
Gi-scan nga PDF ngadto sa Mapangita nga PDF gamit ang Java
Kini nga seksyon nagpatin-aw sa mga detalye kon unsaon pag-convert sa scan nga PDF ngadto sa Searchable PDF gamit ang Java code snippet. Palihug timan-i nga ang Java Cloud SDK nagsuporta sa pag-ila sa mosunod nga mga pinulongan: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , ni, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra o ilang kombinasyon eg eng,rus.
- Una kinahanglan namon nga maghimo usa ka butang sa PdfApi, diin among gipasa ang ClientID ug mga sekretong detalye sa Kliyente isip mga argumento
- Ikaduha, paghimo usa ka pananglitan sa klase sa File aron ma-load ang Image PDF
- Ikatulo, tawga ang paagi nga uploadFile(…) aron ma-upload ang input PDF sa cloud storage
- Ingon nga ang among imahe nga PDF adunay sulud nga English nga teksto, busa kinahanglan namon nga maghimo usa ka butang nga string nga adunay kantidad nga “eng”
- Sa katapusan, tawga ang pamaagi putSearchableDocument(…), nga nanginahanglan usa ka input nga PDF ug usa ka code sa lengguwahe ingon mga argumento.
Sa higayon nga ang code malampuson nga gipatuman, ang searchable PDF gitipigan sa cloud storage
try
{
// Pagkuha ClientID ug ClientSecret gikan sa https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// paghimoPdfApi pananglitan
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// input nga larawan PDF nga dokumento
String name = "ScannedPDF.pdf";
// I-load ang file gikan sa lokal nga sistema
File file = new File(name);
// i-upload ang file sa cloud storage
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// ang mga pinulongan nga gigamit sa hulagway nga PDF
String lang = "eng";
// pagbuhat sa OCR sa larawan PDF dokumento
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// pag-imprinta sa mensahe sa kalampusan
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
Ang gi-scan nga PDF nga gigamit sa pananglitan sa ibabaw mahimong ma-download gikan sa BusinessReport.pdf ug ang resulta nga mapangita nga PDF gikan sa Converted.pdf
OCR Online gamit ang cURL Commands
Ang cURL nga mga sugo usa sa sayon nga paagi sa pagtawag sa REST APIs. Mao nga sa kini nga seksyon, gamiton namon ang mga cURL nga mga mando alang sa OCR online. Karon, isip usa ka kinahanglanon, kinahanglan una nga maghimo usa ka JWT access token (base sa mga kredensyal sa kliyente) samtang gipatuman ang mosunud nga mando.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Kung naa na mi JWT token, palihog ang musunod nga command para himuon ang OCR online ug i-convert ang Image PDF to searchable PDF document. Ang resulta nga file gitipigan sa cloud storage.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Konklusyon
Ang paghimo sa OCR sa mga PDF usa ka kritikal nga proseso alang sa pag-abli sa tibuuk nga potensyal sa kini nga mga dokumento. Uban sa tabang sa cloud-based OCR nga mga himan sama sa Aspose.PDF Cloud SDK para sa Java, kini nga proseso mahimong pasimplehon ug automated, makadaginot sa oras ug makadugang sa produktibidad. Pinaagi sa paggamit sa gahum sa OCR, ang mga negosyo ug mga developer makahimo sa pagbag-o sa mga PDF nga nakabase sa imahe ngadto sa mapangita nga mga PDF, nga makapasayon niini sa pagpangita, pag-edit, ug pagpaambit. Klaro nga kini nga API nagtanyag usa ka lainlaing mga gamhanan nga bahin ug kapabilidad alang sa pagtrabaho kauban ang mga PDF. Pinaagi sa pagsunod sa sunod-sunod nga mga giya nga gihatag niining teknikal nga blog, makasugod ka sa OCR sa mga PDF ug dad-on ang imong workflow sa dokumento ngadto sa sunod nga lebel.
Mahimo nimong ikonsiderar ang pag-access sa API sulod sa usa ka web browser gamit ang swagger interface. Dugang pa, tungod kay ang atong mga SDK gitukod ubos sa lisensya sa MIT, mao nga ang kompleto nga source code mahimong ma-download gikan sa GitHub. Kung makasugat ka ug bisan unsang mga isyu samtang naggamit sa API, palihug ayaw pagduhaduha sa pagkontak kanamo pinaagi sa libre nga forum sa suporta sa produkto.
May Kalabutan nga mga Artikulo
Girekomenda namon nga bisitahan ang mosunud nga mga link aron mahibal-an ang dugang bahin sa: