Në botën e sotme të drejtuar nga të dhënat, PDF janë bërë një format i domosdoshëm për ruajtjen dhe ndarjen e dokumenteve. Megjithatë, jo të gjitha PDF-të janë lehtësisht të kërkueshme ose të modifikueshme, veçanërisht ato që bazohen në imazhe. Kur kemi të bëjmë me dokumente, është vërtet e vështirë të kopjosh/ekstraktosh ndonjë informacion tekstual për manipulim të mëtejshëm. Për fat të mirë, me fuqinë e teknologjisë së Njohjes Optike të Karaktereve (OCR), ju mund t’i konvertoni me lehtësi PDF-të e imazheve në PDF të kërkueshme. Në këtë blog teknik, ne do të eksplorojmë se si të konvertojmë OCR PDF në PDF të kërkueshme duke përdorur teknika të ndryshme, me një fokus të veçantë në REST API. Ne do të diskutojmë gjithashtu se si të nxjerrim tekst nga skedarët PDF OCR, duke ju dhënë një kuptim gjithëpërfshirës se si të përdorni teknologjinë OCR për të zhbllokuar potencialin e plotë të dokumenteve tuaja PDF.
- OCR PDF duke përdorur Java SDK
- PDF e skanuar në PDF të kërkueshme duke përdorur Java
- OCR Online duke përdorur komandat cURL
OCR PDF duke përdorur Java SDK
Aspose.PDF Cloud SDK për Java është një API e fuqishme e bazuar në renë kompjuterike që ofron një gamë të gjerë veçorish dhe aftësish për të punuar me dokumente PDF. Një nga funksionalitetet kryesore të tij është aftësia për të kryer OCR në PDF, e cila mund të thjeshtojë shumë procesin e nxjerrjes së tekstit nga PDF-të e bazuara në imazhe dhe krijimin e PDF-ve të kërkueshme. Me ndërfaqen e tij miqësore për përdoruesit dhe dokumentacionin gjithëpërfshirës, kjo SDK e bën të lehtë automatizimin e procesit të kryerjes së OCR në PDF, duke kursyer kohë dhe duke rritur produktivitetin.
Për më tepër, kjo API e bazuar në renë kompjuterike është krijuar për të trajtuar një shumëllojshmëri të gjerë të formateve hyrëse dhe madje mund të njohë tekstin e shkruar me dorë, duke e bërë atë një zgjedhje të shkëlqyer për bizneset dhe zhvilluesit që kërkojnë të thjeshtojnë rrjedhën e punës së dokumenteve të tyre. Tani hapi i parë është të shtoni referencën e tij në projektin Java duke shtuar detajet e mëposhtme në pom.xml të projektit të ndërtimit të maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Nëse nuk keni një llogari ekzistuese, duhet të krijoni një llogari falas në Aspose Cloud. Identifikohu duke përdorur llogarinë e krijuar rishtazi dhe kërko/krijo ID-në e Klientit dhe Sekretin e Klientit në Cloud Dashboard. Këto detaje kërkohen në seksionet vijuese.
PDF e skanuar në PDF të kërkueshme duke përdorur Java
Ky seksion shpjegon detajet se si të konvertohet PDF e skanuar në PDF e kërkueshme duke përdorur një copë kodi Java. Ju lutemi vini re se Java Cloud SDK mbështet njohjen e gjuhëve të mëposhtme: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra ose kombinimi i tyre p.sh. eng,rus.
- Fillimisht duhet të krijojmë një objekt të PdfApi, ku kalojmë si argumente detajet sekrete të ID-së së klientit dhe klientit.
- Së dyti, krijoni një shembull të klasës File për të ngarkuar imazhin PDF
- Së treti, thirrni metodën uploadFile(…) për të ngarkuar PDF-në e hyrjes në hapësirën ruajtëse të cloud
- Meqenëse imazhi ynë PDF përmban tekst në anglisht, kështu që ne duhet të krijojmë një objekt vargu që mban një vlerë “eng”
- Së fundi, thirrni metodën putSearchableDocument(…), e cila kërkon një hyrje PDF dhe një kod gjuhe si argumente.
Pasi kodi të ekzekutohet me sukses, PDF-ja e kërkueshme ruhet në ruajtjen e resë kompjuterike
try
{
// Merrni ClientID dhe ClientSecret nga https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// Shembull i krijimitPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// futni imazhin e dokumentit PDF
String name = "ScannedPDF.pdf";
// Ngarkoni skedarin nga sistemi lokal
File file = new File(name);
// ngarkoni skedarin në ruajtjen e cloud
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// gjuhët e përdorura në imazhin PDF
String lang = "eng";
// kryeni OCR në dokumentin PDF të imazhit
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// printimi i mesazhit të suksesit
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
PDF-ja e skanuar e përdorur në shembullin e mësipërm mund të shkarkohet nga BusinessReport.pdf dhe PDF-ja e kërkueshme që rezulton nga Converted.pdf
OCR Online duke përdorur komandat cURL
Komandat cURL janë një nga qasjet e përshtatshme për të thirrur API-të REST. Pra, në këtë seksion, ne do të përdorim komandat cURL për OCR në internet. Tani, si parakusht, ne duhet së pari të gjenerojmë një shenjë hyrjeje JWT (bazuar në kredencialet e klientit) gjatë ekzekutimit të komandës së mëposhtme.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Pasi të kemi kodin JWT, ju lutemi komandën e mëposhtme për të kryer OCR në internet dhe për të kthyer imazhin PDF në dokument PDF të kërkueshëm. Skedari që rezulton më pas ruhet në ruajtjen e resë kompjuterike.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
konkluzioni
Kryerja e OCR në PDF është një proces kritik për zhbllokimin e potencialit të plotë të këtyre dokumenteve. Me ndihmën e mjeteve OCR të bazuara në cloud si Aspose.PDF Cloud SDK për Java, ky proces mund të thjeshtohet dhe automatizohet, duke kursyer kohë dhe duke rritur produktivitetin. Duke shfrytëzuar fuqinë e OCR, bizneset dhe zhvilluesit mund t’i transformojnë PDF-të e bazuara në imazhe në PDF të kërkueshme, duke i bërë më të lehtë kërkimin, modifikimin dhe ndarjen e tyre. Është e qartë se kjo API ofron një sërë veçorish dhe aftësish të fuqishme për të punuar me PDF. Duke ndjekur udhëzuesit hap pas hapi të ofruara në këtë blog teknik, mund të filloni me OCR në PDF dhe ta çoni rrjedhën e punës së dokumentit tuaj në nivelin tjetër.
Ju mund të konsideroni aksesin në API brenda një shfletuesi uebi duke përdorur ndërfaqen swagger. Për më tepër, pasi SDK-të tona janë ndërtuar nën një licencë MIT, kështu që kodi i plotë burimor mund të shkarkohet nga GitHub. Në rast se hasni ndonjë problem gjatë përdorimit të API-së, ju lutemi mos ngurroni të na kontaktoni përmes forumit të mbështetjes falas të produktit.
Artikuj të ngjashëm
Ne rekomandojmë shumë të vizitoni lidhjet e mëposhtme për të mësuar më shumë rreth: