Мы ўсе ведаем, што файлы PDF з’яўляюцца адным з найбольш важных і шырока выкарыстоўваных лічбавых фарматаў, якія выкарыстоўваюцца для надзейнага прадстаўлення дакументаў і абмену імі, незалежна ад праграмнага забеспячэння, абсталявання або аперацыйнай сістэмы. Аднак у некаторых выпадках нам можа быць цікава атрымаць урывак з вялікіх PDF-файлаў. Або мы можам мець патрабаванне захаваць PDF у тэкст у Інтэрнэце. Такім чынам, у гэтым артыкуле мы збіраемся вывучыць дэталі таго, як распрацаваць канвэртар PDF у тэкст з дапамогай Java REST API.
API генератара PDF
Атрымайце магчымасць ствараць PDF-дакументы з дапамогай шаблонаў або з нуля з дапамогай нашага REST API. У той жа час API таксама дазваляе рэдагаваць, а таксама пераўтвараць PDF-файлы ў іншыя падтрымоўваныя фарматы. Вы таксама можаце скарыстацца перавагамі вымання тэксту з PDF, расшыфроўкі і аб’яднання файлаў PDF з дапамогай Java Cloud SDK. Цяпер, каб выкарыстоўваць Aspose.PDF Cloud SDK для Java, нам трэба дадаць яго спасылку ў наша дадатак Java, уключыўшы наступныя дэталі ў pom.xml (праект тыпу зборкі maven).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Пасля ўстаноўкі нам трэба стварыць бясплатны ўліковы запіс на Cloud Dashboard і атрымаць персаналізаваныя ўліковыя дадзеныя кліента.
Выманне тэксту з PDF з дапамогай Java
Давайце вывучым дэталі, каб атрымаць тэкст з PDF з дапамогай Java cloud SDK. У гэтым прыкладзе мы будзем выкарыстоўваць наступны ўвод PdfWithTable.pdf файл.
// для атрымання дадатковых прыкладаў, калі ласка, наведайце https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Атрымайце ClientID і ClientSecret з https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// стварыць асобнік PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// імя ўваходнага дакумента PDF
String name = "PdfWithTable.pdf";
// прачытаць змесціва ўваходнага файла PDF
File file = new File(name);
// загрузіць PDF у воблачнае сховішча
pdfApi.uploadFile("input.pdf", file, null);
// Х-каардыната левага ніжняга кута
Double LLX = 500.0;
// Y - каардыната ніжняга левага кута.
Double LLY = 500.0;
// X - каардыната верхняга правага кута.
Double URX = 800.0;
// Y - каардыната правага верхняга кута.
Double URY = 800.0;
// выклік API для пераўтварэння PDF у тэкст
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Пераход праз асобнае ўзнікненне тэксту
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// напісаць тэкставы кантэнт у кансолі
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Зараз давайце паспрабуем разабрацца з указаным вышэй фрагментам кода:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Стварыце асобнік PdfApi, перадаючы персаналізаваныя ўліковыя даныя ў якасці аргументаў.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Прачытайце ўваходны PDF з дапамогай аб’екта File і загрузіце яго ў воблачнае сховішча з дапамогай метаду uploadFile(…) класа PdfAPi. Звярніце ўвагу, што файл загружаецца з імем, якое выкарыстоўваецца ў метадзе uploadFile.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Цяпер выклічце метад getText(..), у якім мы паказваем назву ўваходнага PDF-файла, прастакутныя памеры старонкі, з якой нам трэба атрымаць тэкставы кантэнт, і вяртаем выняты кантэнт аб’екту TextRectsResponse.
response.getTextOccurrences().getList().get(counter).getText()
Нарэшце, каб надрукаваць вынятае тэкставае змесціва, мы збіраемся перабраць усе TextOccurances і паказаць іх у кансолі.
PDF у тэкст з дапамогай каманд cURL
Акрамя фрагмента кода Java, мы таксама можам выконваць аперацыю pdftotext з дапамогай каманд cURL. Адной з перадумоў для гэтага падыходу з’яўляецца стварэнне маркера доступу JWT (на аснове ўліковых дадзеных кліента) з дапамогай наступнай каманды.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Пасля стварэння JWT выканайце наступную каманду, каб атрымаць тэкст з файла PDF, які ўжо ёсць у воблачным сховішчы.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Хуткі савет
Шукаю бясплатную праграму PDF to Text! Калі ласка, паспрабуйце выкарыстоўваць наш PDF Parser.
Заключныя заўвагі
У заключэнне, выманне тэксту з файлаў PDF з дапамогай Java можа быць магутным рашэннем для тых, хто хоча аўтаматызаваць свае патрэбы ў апрацоўцы і аналізе даных. З дапамогай гэтага кіраўніцтва вы зараз маеце трывалую аснову, на якой можна абапірацца, і можаце лёгка рэалізаваць уласнае рашэнне на аснове Java для вымання тэксту з дакументаў PDF. Незалежна ад таго, хочаце вы атрымаць тэкст для аналізу даных, машыннага навучання або любой іншай мэты, Java прапануе гнуткую і надзейную платформу для вашых патрэб. Так што наперад і праверце свае набытыя навыкі!
Калі вы зацікаўлены ў вывучэнні іншых цікавых функцый, якія прапануе API, азнаёмцеся з Дакументацыяй прадукту. І, нарэшце, калі вы сутыкнуліся з якой-небудзь праблемай падчас выкарыстання API або ў вас ёсць любы звязаны запыт, калі ласка, не саромейцеся звязацца з намі праз бясплатны Форум падтрымкі прадукту.
Звязаныя артыкулы
Перайдзіце па наступных спасылках, каб даведацца больш пра: