выняць тэкст з pdf

Выняць тэкст з PDF у Java

Мы ўсе ведаем, што файлы PDF з’яўляюцца адным з найбольш важных і шырока выкарыстоўваных лічбавых фарматаў, якія выкарыстоўваюцца для надзейнага прадстаўлення дакументаў і абмену імі, незалежна ад праграмнага забеспячэння, абсталявання або аперацыйнай сістэмы. Аднак у некаторых выпадках нам можа быць цікава атрымаць урывак з вялікіх PDF-файлаў. Або мы можам мець патрабаванне захаваць PDF у тэкст у Інтэрнэце. Такім чынам, у гэтым артыкуле мы збіраемся вывучыць дэталі таго, як распрацаваць канвэртар PDF у тэкст з дапамогай Java REST API.

API генератара PDF

Атрымайце магчымасць ствараць PDF-дакументы з дапамогай шаблонаў або з нуля з дапамогай нашага REST API. У той жа час API таксама дазваляе рэдагаваць, а таксама пераўтвараць PDF-файлы ў іншыя падтрымоўваныя фарматы. Вы таксама можаце скарыстацца перавагамі вымання тэксту з PDF, расшыфроўкі і аб’яднання файлаў PDF з дапамогай Java Cloud SDK. Цяпер, каб выкарыстоўваць Aspose.PDF Cloud SDK для Java, нам трэба дадаць яго спасылку ў наша дадатак Java, уключыўшы наступныя дэталі ў pom.xml (праект тыпу зборкі maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Пасля ўстаноўкі нам трэба стварыць бясплатны ўліковы запіс на Cloud Dashboard і атрымаць персаналізаваныя ўліковыя дадзеныя кліента.

Выманне тэксту з PDF з дапамогай Java

Давайце вывучым дэталі, каб атрымаць тэкст з PDF з дапамогай Java cloud SDK. У гэтым прыкладзе мы будзем выкарыстоўваць наступны ўвод PdfWithTable.pdf файл.

З pdf ў тэкст ocr

Малюнак 1: - Уваходны файл для вымання PDF у тэкст.

З pdf ў тэкст ocr

Малюнак 2: - Выманне тэксту з папярэдняга прагляду PDF

// для атрымання дадатковых прыкладаў, калі ласка, наведайце https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Атрымайце ClientID і ClientSecret з https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // стварыць асобнік PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // імя ўваходнага дакумента PDF
    String name = "PdfWithTable.pdf";
		        
    // прачытаць змесціва ўваходнага файла PDF
    File file = new File(name); 
    // загрузіць PDF у воблачнае сховішча
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Х-каардыната левага ніжняга кута
    Double LLX = 500.0;
    // Y - каардыната ніжняга левага кута.
    Double LLY = 500.0;
    // X - каардыната верхняга правага кута.
    Double URX = 800.0;
    // Y - каардыната правага верхняга кута.
    Double URY = 800.0;
			       
    // выклік API для пераўтварэння PDF у тэкст
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Пераход праз асобнае ўзнікненне тэксту
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // напісаць тэкставы кантэнт у кансолі
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Зараз давайце паспрабуем разабрацца з указаным вышэй фрагментам кода:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Стварыце асобнік PdfApi, перадаючы персаналізаваныя ўліковыя даныя ў якасці аргументаў.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Прачытайце ўваходны PDF з дапамогай аб’екта File і загрузіце яго ў воблачнае сховішча з дапамогай метаду uploadFile(…) класа PdfAPi. Звярніце ўвагу, што файл загружаецца з імем, якое выкарыстоўваецца ў метадзе uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Цяпер выклічце метад getText(..), у якім мы паказваем назву ўваходнага PDF-файла, прастакутныя памеры старонкі, з якой нам трэба атрымаць тэкставы кантэнт, і вяртаем выняты кантэнт аб’екту TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Нарэшце, каб надрукаваць вынятае тэкставае змесціва, мы збіраемся перабраць усе TextOccurances і паказаць іх у кансолі.

PDF у тэкст з дапамогай каманд cURL

Акрамя фрагмента кода Java, мы таксама можам выконваць аперацыю pdftotext з дапамогай каманд cURL. Адной з перадумоў для гэтага падыходу з’яўляецца стварэнне маркера доступу JWT (на аснове ўліковых дадзеных кліента) з дапамогай наступнай каманды.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Пасля стварэння JWT выканайце наступную каманду, каб атрымаць тэкст з файла PDF, які ўжо ёсць у воблачным сховішчы.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Хуткі савет

Шукаю бясплатную праграму PDF to Text! Калі ласка, паспрабуйце выкарыстоўваць наш PDF Parser.

Заключныя заўвагі

У заключэнне, выманне тэксту з файлаў PDF з дапамогай Java можа быць магутным рашэннем для тых, хто хоча аўтаматызаваць свае патрэбы ў апрацоўцы і аналізе даных. З дапамогай гэтага кіраўніцтва вы зараз маеце трывалую аснову, на якой можна абапірацца, і можаце лёгка рэалізаваць уласнае рашэнне на аснове Java для вымання тэксту з дакументаў PDF. Незалежна ад таго, хочаце вы атрымаць тэкст для аналізу даных, машыннага навучання або любой іншай мэты, Java прапануе гнуткую і надзейную платформу для вашых патрэб. Так што наперад і праверце свае набытыя навыкі!

Калі вы зацікаўлены ў вывучэнні іншых цікавых функцый, якія прапануе API, азнаёмцеся з Дакументацыяй прадукту. І, нарэшце, калі вы сутыкнуліся з якой-небудзь праблемай падчас выкарыстання API або ў вас ёсць любы звязаны запыт, калі ласка, не саромейцеся звязацца з намі праз бясплатны Форум падтрымкі прадукту.

Звязаныя артыкулы

Перайдзіце па наступных спасылках, каб даведацца больш пра: