У данашњем свету вођеном подацима, ПДФ-ови су постали незаменљив формат за складиштење и дељење докумената. Међутим, нису сви ПДФ-ови лако претраживи или уређивани, посебно они који су засновани на сликама. Када се ради са документима, заиста је тешко копирати/издвојити било коју текстуалну информацију за даљу манипулацију. На срећу, са снагом технологије оптичког препознавања знакова (ОЦР), можете са лакоћом да конвертујете ПДФ-ове са сликама у ПДФ-ове који се могу претраживати. У овом техничком блогу ћемо истражити како претворити ОЦР ПДФ у ПДФ који се може претраживати користећи различите технике, са посебним фокусом на РЕСТ АПИ. Такође ћемо разговарати о томе како да издвојите текст из ОЦР ПДФ-ова, дајући вам свеобухватно разумевање како да искористите ОЦР технологију да бисте откључали пуни потенцијал ваших ПДФ докумената.
- ОЦР ПДФ користећи Јава СДК
- Скенирани ПДФ у ПДФ који се може претраживати користећи Јава
- ОЦР Онлине користећи цУРЛ команде
ОЦР ПДФ користећи Јава СДК
Аспосе.ПДФ Цлоуд СДК за Јаву је моћан АПИ заснован на облаку који нуди широк спектар функција и могућности за рад са ПДФ документима. Једна од његових кључних функционалности је могућност обављања ОЦР-а на ПДФ-овима, што може у великој мери да поједностави процес издвајања текста из ПДФ-ова заснованих на сликама и креирања ПДФ-ова који се могу претраживати. Са својим корисничким интерфејсом и свеобухватном документацијом, овај СДК олакшава аутоматизацију процеса извођења ОЦР-а на ПДФ-овима, штедећи време и повећавајући продуктивност.
Штавише, овај АПИ заснован на облаку је дизајниран да рукује широким спектром формата уноса и чак може да препозна руком писани текст, што га чини одличним избором за предузећа и програмере који желе да поједноставе свој ток рада са документима. Сада је први корак да додате његову референцу у Јава пројекат додавањем следећих детаља у пом.кмл мавен буилд пројекта.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Ако немате постојећи налог, потребно је да направите бесплатан налог преко Аспосе Цлоуд. Пријавите се помоћу новоотвореног налога и потражите/креирајте ИД клијента и Цлиент Сецрет на Цлоуд Дасхбоард. Ови детаљи су потребни у наредним одељцима.
Скенирани ПДФ у ПДФ који се може претраживати користећи Јава
Овај одељак објашњава детаље о томе како да конвертујете скенирани ПДФ у ПДФ који се може претраживати помоћу исечка Јава кода. Имајте на уму да Јава Цлоуд СДК подржава препознавање следећих језика: енг, ара, бел, бен, бул, цес, дан, деу, елл, фин, фра, хеб, хин, инд, исл, ита, јпн, кор, нлд , нор, пол, пор, рон, рус, спа, све, тха, тур, укр, вие, цхисим, цхитра или њихова комбинација нпр. енг,рус.
- Прво морамо да креирамо објекат ПдфАпи, где прослеђујемо ЦлиентИД и Цлиент тајне детаље као аргументе
- Друго, креирајте инстанцу класе Филе да бисте учитали ПДФ слику
- Треће, позовите метод уплоадФиле(…) да бисте отпремили улазни ПДФ у складиште у облаку
- Како наша слика ПДФ садржи текст на енглеском, тако да морамо да креирамо стринг објекат који има вредност „енг“
- Коначно, позовите метод путСеарцхаблеДоцумент(…), који захтева улазни ПДФ и језички код као аргументе.
Када се код успешно изврши, претраживи ПДФ се чува у складишту у облаку
try
{
// Преузмите ЦлиентИД и ЦлиентСецрет са https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// цреатеПдфАпи инстанца
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// улазна слика ПДФ документ
String name = "ScannedPDF.pdf";
// Учитајте датотеку са локалног система
File file = new File(name);
// отпремите датотеку у складиште у облаку
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// језици који се користе у сликовном ПДФ-у
String lang = "eng";
// изврши ОЦР на сликовном ПДФ документу
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// штампање поруке о успеху
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
Скенирани ПДФ коришћен у горњем примеру може се преузети са БусинессРепорт.пдф, а резултујући претраживи ПДФ са Цонвертед.пдф
ОЦР Онлине користећи цУРЛ команде
Команде цУРЛ су један од погодних приступа за позивање РЕСТ АПИ-ја. Дакле, у овом одељку ћемо користити цУРЛ команде за ОЦР на мрежи. Сада, као предуслов, морамо прво да генеришемо ЈВТ приступни токен (на основу акредитива клијента) док извршавамо следећу команду.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Када добијемо ЈВТ токен, молимо следећу команду да извршите ОЦР на мрежи и претворите ПДФ слику у ПДФ документ који се може претраживати. Добијена датотека се затим чува у складишту у облаку.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Закључак
ОЦР на ПДФ-овима је критичан процес за откључавање пуног потенцијала ових докумената. Уз помоћ ОЦР алата заснованих на облаку као што је Аспосе.ПДФ Цлоуд СДК за Јаву, овај процес се може поједноставити и аутоматизовати, штедећи време и повећавајући продуктивност. Користећи моћ ОЦР-а, предузећа и програмери могу да трансформишу ПДФ-ове засноване на сликама у ПДФ-ове који се могу претраживати, чинећи их лакшим за претрагу, уређивање и дељење. Јасно је да овај АПИ нуди низ моћних функција и могућности за рад са ПДФ-овима. Пратећи упутства корак по корак која се налазе на овом техничком блогу, можете започети са ОЦР-ом на ПДФ-овима и подићи ток рада докумената на виши ниво.
Можете размотрити приступ АПИ-ју у оквиру веб прегледача помоћу сваггер интерфејса. Штавише, пошто су наши СДК-ови направљени под МИТ лиценцом, тако да се комплетан изворни код може преузети са ГитХуб. У случају да наиђете на било какве проблеме током коришћења АПИ-ја, слободно нас контактирајте преко бесплатног форума за подршку производа.
повезани чланци
Топло препоручујемо да посетите следеће везе да бисте сазнали више о: