Við vitum öll að PDF skrár eru eitt mikilvægasta og mest notaða stafræna sniðið sem notað er til að kynna og skiptast á skjölum á áreiðanlegan hátt, óháð hugbúnaði, vélbúnaði eða stýrikerfi. Hins vegar, í sumum tilfellum, gætum við haft áhuga á að fá útdrátt úr stórum PDF skjölum. Eða við gætum þurft að vista PDF í texta á netinu. Svo í þessari grein ætlum við að kanna upplýsingar um hvernig á að þróa PDF til textabreytir með Java REST API.
PDF Generator API
Fáðu styrk til að búa til PDF skjöl með sniðmátum eða frá grunni með REST API okkar. Á sama tíma gerir API þér einnig kleift að breyta og umbreyta PDF skjölunum í önnur studd snið. Þú getur líka nýtt þér kosti þess að draga texta úr PDF, afkóða og sameina PDF skrár með Java Cloud SDK. Nú, til að nota Aspose.PDF Cloud SDK fyrir Java, þurfum við að bæta við tilvísun þess í Java forritinu okkar með því að setja eftirfarandi upplýsingar inn í pom.xml (maven build type project).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Eftir uppsetninguna þurfum við að búa til ókeypis reikning yfir Cloud Dashboard og fá persónulega persónuskilríki viðskiptavinarins.
Dragðu út texta úr PDF með Java
Við skulum kanna smáatriðin til að draga texta úr PDF með Java Cloud SDK. Í þessu dæmi ætlum við að nota eftirfarandi inntak PdfWithTable.pdf skrá.
// fyrir fleiri dæmi, vinsamlegast farðu á https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Fáðu ClientID og ClientSecret frá https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// búa til tilvik af PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// heiti PDF inntaksskjals
String name = "PdfWithTable.pdf";
// lestu innihald inntaks PDF-skjals
File file = new File(name);
// hlaða upp PDF í skýjageymslu
pdfApi.uploadFile("input.pdf", file, null);
// X-hnit neðra - vinstra horns
Double LLX = 500.0;
// Y - hnit neðra vinstra hornsins.
Double LLY = 500.0;
// X - hnit efra hægra hornsins.
Double URX = 800.0;
// Y - hnit efra hægra hornsins.
Double URY = 800.0;
// kalla API til að umbreyta PDF í texta
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Farðu í gegnum einstaka textatilvik
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// skrifaðu textaefni í stjórnborðinu
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Nú skulum við reyna að skilja ofangreindan kóðabút:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Búðu til tilvik af PdfApi á meðan þú sendir persónulegu skilríkin sem rök.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Lestu innsláttinn PDF með File object og hladdu því upp í skýjageymslu með uploadFile(…) aðferðinni í PdfAPi bekknum. Vinsamlegast athugaðu að skránni er hlaðið upp með nafninu sem notað er í uploadFile aðferðinni.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Kallaðu nú getText(..) aðferðina þar sem við tilgreinum heiti PDF innsláttarskráar, rétthyrndar stærðir á síðu sem við þurfum að draga út textaefnið úr og skilum útdregnu efninu í TextRectsResponse hlutinn.
response.getTextOccurrences().getList().get(counter).getText()
Að lokum, til þess að prenta útdráttartextann, ætlum við að fara í gegnum öll TextOccurances og birta þau í stjórnborðinu.
PDF til texta með cURL skipunum
Fyrir utan Java kóðabút getum við einnig framkvæmt pdftotext aðgerð með því að nota cURL skipanir. Nú er ein af forsendum þessarar nálgun að búa til JWT aðgangslykil (byggt á skilríkjum viðskiptavinar) með því að nota eftirfarandi skipun.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Þegar JWT er búið til, vinsamlegast framkvæmdu eftirfarandi skipun til að draga texta úr PDF skjalinu sem þegar er til í skýgeymslu.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Fljótleg ráð
Ertu að leita að ókeypis forriti fyrir PDF til texta! Vinsamlegast reyndu að nota PDF Parser.
Lokaorð
Að lokum, að draga texta úr PDF skjölum með Java getur verið öflug lausn fyrir þá sem vilja gera sjálfvirkan gagnavinnslu og greiningarþarfir. Með hjálp þessarar handbókar hefurðu nú traustan grunn til að byggja á og getur auðveldlega innleitt þína eigin Java-undirstaða lausn fyrir textaútdrátt úr PDF skjölum. Hvort sem þú ert að leita að texta til gagnagreiningar, vélanáms eða í öðrum tilgangi, þá býður Java upp á sveigjanlegan og áreiðanlegan vettvang fyrir þarfir þínar. Svo farðu á undan og prófaðu nýfengna færni þína!
Ef þú hefur áhuga á að kanna aðra spennandi eiginleika sem API býður upp á, vinsamlegast skoðaðu Vöruskjölin. Að lokum, ef þú lendir í einhverjum vandamálum þegar þú notar API, eða þú hefur einhverjar tengdar fyrirspurnir, vinsamlegast ekki hika við að hafa samband við okkur í gegnum ókeypis Product Support Forum.
tengdar greinar
Vinsamlegast farðu á eftirfarandi tengla til að læra meira um: