Слика ПДФ у ПДФ који се може претраживати

Претворите сликовни ПДФ у ПДФ који се може претраживати

У данашњем свету вођеном подацима, ПДФ-ови су постали незаменљив формат за складиштење и дељење докумената. Међутим, нису сви ПДФ-ови лако претраживи или уређивани, посебно они који су засновани на сликама. Када се ради са документима, заиста је тешко копирати/издвојити било коју текстуалну информацију за даљу манипулацију. На срећу, са снагом технологије оптичког препознавања знакова (ОЦР), можете са лакоћом да конвертујете ПДФ-ове са сликама у ПДФ-ове који се могу претраживати. У овом техничком блогу ћемо истражити како претворити ОЦР ПДФ у ПДФ који се може претраживати користећи различите технике, са посебним фокусом на РЕСТ АПИ. Такође ћемо разговарати о томе како да издвојите текст из ОЦР ПДФ-ова, дајући вам свеобухватно разумевање како да искористите ОЦР технологију да бисте откључали пуни потенцијал ваших ПДФ докумената.

ОЦР ПДФ користећи Јава СДК

Аспосе.ПДФ Цлоуд СДК за Јаву је моћан АПИ заснован на облаку који нуди широк спектар функција и могућности за рад са ПДФ документима. Једна од његових кључних функционалности је могућност обављања ОЦР-а на ПДФ-овима, што може у великој мери да поједностави процес издвајања текста из ПДФ-ова заснованих на сликама и креирања ПДФ-ова који се могу претраживати. Са својим корисничким интерфејсом и свеобухватном документацијом, овај СДК олакшава аутоматизацију процеса извођења ОЦР-а на ПДФ-овима, штедећи време и повећавајући продуктивност.

Штавише, овај АПИ заснован на облаку је дизајниран да рукује широким спектром формата уноса и чак може да препозна руком писани текст, што га чини одличним избором за предузећа и програмере који желе да поједноставе свој ток рада са документима. Сада је први корак да додате његову референцу у Јава пројекат додавањем следећих детаља у пом.кмл мавен буилд пројекта.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Ако немате постојећи налог, потребно је да направите бесплатан налог преко Аспосе Цлоуд. Пријавите се помоћу новоотвореног налога и потражите/креирајте ИД клијента и Цлиент Сецрет на Цлоуд Дасхбоард. Ови детаљи су потребни у наредним одељцима.

Скенирани ПДФ у ПДФ који се може претраживати користећи Јава

Овај одељак објашњава детаље о томе како да конвертујете скенирани ПДФ у ПДФ који се може претраживати помоћу исечка Јава кода. Имајте на уму да Јава Цлоуд СДК подржава препознавање следећих језика: енг, ара, бел, бен, бул, цес, дан, деу, елл, фин, фра, хеб, хин, инд, исл, ита, јпн, кор, нлд , нор, пол, пор, рон, рус, спа, све, тха, тур, укр, вие, цхисим, цхитра или њихова комбинација нпр. енг,рус.

  • Прво морамо да креирамо објекат ПдфАпи, где прослеђујемо ЦлиентИД и Цлиент тајне детаље као аргументе
  • Друго, креирајте инстанцу класе Филе да бисте учитали ПДФ слику
  • Треће, позовите метод уплоадФиле(…) да бисте отпремили улазни ПДФ у складиште у облаку
  • Како наша слика ПДФ садржи текст на енглеском, тако да морамо да креирамо стринг објекат који има вредност „енг“
  • Коначно, позовите метод путСеарцхаблеДоцумент(…), који захтева улазни ПДФ и језички код као аргументе.

Када се код успешно изврши, претраживи ПДФ се чува у складишту у облаку

try
    {
    // Преузмите ЦлиентИД и ЦлиентСецрет са https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // цреатеПдфАпи инстанца
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // улазна слика ПДФ документ
    String name = "ScannedPDF.pdf";	        
	    			    
    // Учитајте датотеку са локалног система
    File file = new File(name);
    // отпремите датотеку у складиште у облаку
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // језици који се користе у сликовном ПДФ-у
    String lang = "eng";
	    				
    //  изврши ОЦР на сликовном ПДФ документу
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // штампање поруке о успеху
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Слика ПДФ у ПДФ који се може претраживати

Слика 1: - Претражујући ПДФ преглед

Скенирани ПДФ коришћен у горњем примеру може се преузети са БусинессРепорт.пдф, а резултујући претраживи ПДФ са Цонвертед.пдф

ОЦР Онлине користећи цУРЛ команде

Команде цУРЛ су један од погодних приступа за позивање РЕСТ АПИ-ја. Дакле, у овом одељку ћемо користити цУРЛ команде за ОЦР на мрежи. Сада, као предуслов, морамо прво да генеришемо ЈВТ приступни токен (на основу акредитива клијента) док извршавамо следећу команду.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Када добијемо ЈВТ токен, молимо следећу команду да извршите ОЦР на мрежи и претворите ПДФ слику у ПДФ документ који се може претраживати. Добијена датотека се затим чува у складишту у облаку.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Закључак

ОЦР на ПДФ-овима је критичан процес за откључавање пуног потенцијала ових докумената. Уз помоћ ОЦР алата заснованих на облаку као што је Аспосе.ПДФ Цлоуд СДК за Јаву, овај процес се може поједноставити и аутоматизовати, штедећи време и повећавајући продуктивност. Користећи моћ ОЦР-а, предузећа и програмери могу да трансформишу ПДФ-ове засноване на сликама у ПДФ-ове који се могу претраживати, чинећи их лакшим за претрагу, уређивање и дељење. Јасно је да овај АПИ нуди низ моћних функција и могућности за рад са ПДФ-овима. Пратећи упутства корак по корак која се налазе на овом техничком блогу, можете започети са ОЦР-ом на ПДФ-овима и подићи ток рада докумената на виши ниво.

Можете размотрити приступ АПИ-ју у оквиру веб прегледача помоћу сваггер интерфејса. Штавише, пошто су наши СДК-ови направљени под МИТ лиценцом, тако да се комплетан изворни код може преузети са ГитХуб. У случају да наиђете на било какве проблеме током коришћења АПИ-ја, слободно нас контактирајте преко бесплатног форума за подршку производа.

повезани чланци

Топло препоручујемо да посетите следеће везе да бисте сазнали више о: