издвојити текст из ПДФ-а

Извуците текст из ПДФ-а у Јави

Сви знамо да су датотеке ПДФ један од најважнијих и најчешће коришћених дигиталних формата који се користе за поуздано представљање и размену докумената, независно од софтвера, хардвера или оперативног система. Међутим, у неким сценаријима, можда ћемо бити заинтересовани да добијемо извод из великих ПДФ датотека. Или, можда имамо захтев да сачувамо ПДФ у тексту на мрежи. Дакле, у овом чланку ћемо истражити детаље о томе како развити ПДФ у Тект претварач користећи Јава РЕСТ АПИ.

ПДФ Генератор АПИ

Добијте предност да генеришете ПДФ документе помоћу шаблона или од нуле користећи наш РЕСТ АПИ. Истовремено, АПИ вам такође омогућава да уређујете и трансформишете ПДФ датотеке у друге подржане формате. Такође можете искористити предности издвајања текста из ПДФ-а, дешифровања и спајања ПДФ датотека користећи Јава Цлоуд СДК. Сада, да бисмо користили Аспосе.ПДФ Цлоуд СДК за Јаву, морамо да додамо његову референцу у нашу Јава апликацију тако што ћемо укључити следеће детаље у пом.кмл (мавен буилд тип пројекта).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Након инсталације, потребно је да креирамо бесплатан налог преко Цлоуд Дасхбоард и добијемо персонализоване клијентске акредитиве.

Извуците текст из ПДФ-а користећи Јава

Хајде да истражимо детаље за издвајање текста из ПДФ-а користећи Јава цлоуд СДК. У овом примеру користићемо следећи унос ПдфВитхТабле.пдф фајл.

пдф у текст оцр

Слика 1: - Улазни фајл за екстракцију ПДФ-а у текст.

пдф у текст оцр

Слика 2: - Извуците текст из прегледа ПДФ-а

// за више примера посетите https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Преузмите ЦлиентИД и ЦлиентСецрет са https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // креирајте инстанцу ПдфАпи
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // назив улазног ПДФ документа
    String name = "PdfWithTable.pdf";
		        
    // прочитајте садржај улазне ПДФ датотеке
    File file = new File(name); 
    // отпремите ПДФ у складиште у облаку
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Кс-координата доњег левог угла
    Double LLX = 500.0;
    // И - координата доњег левог угла.
    Double LLY = 500.0;
    // Кс - координата горњег десног угла.
    Double URX = 800.0;
    // И - координата горњег десног угла.
    Double URY = 800.0;
			       
    // позовите АПИ да бисте претворили ПДФ у текст
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Пређите кроз појединачну појаву текста
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // писати текстуални садржај у конзоли
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Покушајмо сада да разумемо горе наведени исечак кода:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Креирајте инстанцу ПдфАпи док прослеђујете персонализоване акредитиве као аргументе.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Прочитајте улазни ПДФ помоћу објекта Филе и отпремите га у складиште у облаку помоћу методе уплоадФиле(…) класе ПдфАПи. Имајте на уму да је датотека отпремљена са именом које се користи у методи уплоадФиле.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Сада позовите гетТект(..) метод где наводимо име улазне ПДФ датотеке, правоугаоне димензије на страници из које треба да издвојимо текстуални садржај и вратимо екстраховани садржај у ТектРецтсРеспонсе објекат.

response.getTextOccurrences().getList().get(counter).getText()

Коначно, да бисмо одштампали екстраховани текстуални садржај, проћи ћемо кроз све ТектОццуранце и приказати их у конзоли.

ПДФ у текст помоћу цУРЛ команди

Осим исјечка Јава кода, можемо извршити и пдфтотект операцију помоћу цУРЛ команди. Сада, један од предуслова за овај приступ је генерисање ЈВТ приступног токена (на основу акредитива клијента) помоћу следеће команде.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Када се ЈВТ генерише, извршите следећу команду да бисте издвојили текст из ПДФ датотеке која је већ доступна у складишту у облаку.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Брзи савет

Тражите бесплатну апликацију из ПДФ-а у текст! Покушајте да користите наш ПДФ парсер.

Завршне напомене

У закључку, издвајање текста из ПДФ датотека помоћу Јаве може бити моћно решење за оне који желе да аутоматизују своје потребе обраде и анализе података. Уз помоћ овог водича, сада имате чврсту основу на којој можете да градите и лако можете да имплементирате сопствено решење засновано на Јави за екстракцију текста из ПДФ докумената. Без обзира да ли желите да издвојите текст за анализу података, машинско учење или било коју другу сврху, Јава пружа флексибилну и поуздану платформу за ваше потребе. Зато само напред и тестирајте своје новостечене вештине!

Ако сте заинтересовани да истражите друге узбудљиве функције које нуди АПИ, истражите Документацију производа. На крају, ако наиђете на било какав проблем током коришћења АПИ-ја или имате било какав сродни упит, слободно нас контактирајте преко бесплатног Форума за подршку за производе.

повезани чланци

Посетите следеће везе да бисте сазнали више о: