Vsi vemo, da so datoteke PDF eden najpomembnejših in najbolj razširjenih digitalnih formatov, ki se uporabljajo za zanesljivo predstavitev in izmenjavo dokumentov, neodvisno od programske, strojne opreme ali operacijskega sistema. Vendar nas bo v nekaterih scenarijih morda zanimal izvleček iz velikih datotek PDF. Lahko pa imamo zahtevo, da PDF shranimo v besedilo na spletu. Zato bomo v tem članku raziskali podrobnosti o tem, kako razviti pretvornik PDF v besedilo z uporabo Java REST API.
- API za ustvarjanje PDF
- Ekstrahirajte besedilo iz PDF z uporabo Jave
- PDF v besedilo z uporabo ukazov cURL
API za ustvarjanje PDF
Pridobite vzvod za ustvarjanje dokumentov PDF z uporabo predlog ali iz nič z uporabo našega API-ja REST. Istočasno vam API omogoča tudi urejanje in preoblikovanje datotek PDF v druge podprte formate. Izkoristite lahko tudi prednosti ekstrahiranja besedila iz PDF-ja, dešifriranja in združevanja datotek PDF z Java Cloud SDK. Zdaj, če želimo uporabiti Aspose.PDF Cloud SDK za Javo, moramo dodati njegovo referenco v našo aplikacijo Java, tako da vključimo naslednje podrobnosti v pom.xml (projekt vrste gradnje maven).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Po namestitvi moramo ustvariti brezplačen račun na Cloud Dashboard in pridobiti prilagojene poverilnice odjemalca.
Ekstrahirajte besedilo iz PDF z uporabo Jave
Raziščimo podrobnosti za ekstrahiranje besedila iz PDF-ja z Java Cloud SDK. V tem primeru bomo uporabili naslednji vnos PdfWithTable.pdf mapa.
// za več primerov obiščite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Pridobite ClientID in ClientSecret na https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// ustvarite primerek PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// ime vhodnega dokumenta PDF
String name = "PdfWithTable.pdf";
// preberite vsebino vhodne datoteke PDF
File file = new File(name);
// naloži PDF v shrambo v oblaku
pdfApi.uploadFile("input.pdf", file, null);
// X-koordinata spodnjega levega kota
Double LLX = 500.0;
// Y - koordinata spodnjega levega kota.
Double LLY = 500.0;
// X - koordinata zgornjega desnega kota.
Double URX = 800.0;
// Y - koordinata zgornjega desnega kota.
Double URY = 800.0;
// klic API za pretvorbo PDF v besedilo
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Premik skozi posamezno pojavljanje besedila
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// pisanje besedilne vsebine v konzolo
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Zdaj pa poskusimo razumeti zgoraj navedeni delček kode:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Ustvarite primerek PdfApi, medtem ko kot argumente posredujete prilagojene poverilnice.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Preberite vhodni PDF z uporabo predmeta File in ga naložite v shrambo v oblaku z uporabo metode uploadFile(…) razreda PdfAPi. Upoštevajte, da je datoteka naložena z imenom, uporabljenim v metodi uploadFile.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Sedaj pokličemo metodo getText(..), kjer podamo ime vhodne datoteke PDF, pravokotne dimenzije na strani, iz katere moramo ekstrahirati besedilno vsebino in vrnemo ekstrahirano vsebino objektu TextRectsResponse.
response.getTextOccurrences().getList().get(counter).getText()
Nazadnje, da bi natisnili ekstrahirano besedilno vsebino, bomo ponovili vse TextOccurances in jih prikazali v konzoli.
PDF v besedilo z uporabo ukazov cURL
Poleg izrezka kode Java lahko izvedemo tudi operacijo pdftotext z ukazi cURL. Zdaj je eden od predpogojev za ta pristop generiranje žetona dostopa JWT (na podlagi poverilnic odjemalca) z uporabo naslednjega ukaza.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Ko je JWT ustvarjen, izvedite naslednji ukaz, da ekstrahirate besedilo iz datoteke PDF, ki je že na voljo v shrambi v oblaku.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Hitri nasvet
Iščete brezplačno aplikacijo PDF to Text! Poskusite uporabiti naš razčlenjevalnik PDF.
Zaključne opombe
Skratka, ekstrahiranje besedila iz datotek PDF z uporabo Jave je lahko zmogljiva rešitev za tiste, ki želijo avtomatizirati svoje potrebe po obdelavi in analizi podatkov. S pomočjo tega vodnika imate zdaj trdne temelje, na katerih lahko gradite, in lahko preprosto implementirate lastno rešitev, ki temelji na Javi, za črpanje besedila iz dokumentov PDF. Ne glede na to, ali želite izvleči besedilo za analizo podatkov, strojno učenje ali kateri koli drug namen, Java ponuja prilagodljivo in zanesljivo platformo za vaše potrebe. Zato kar naprej in preizkusite svoje novo pridobljene veščine!
Če želite raziskati druge vznemirljive funkcije, ki jih ponuja API, raziščite Dokumentacijo izdelka. Nazadnje, če med uporabo API-ja naletite na kakršno koli težavo ali imate kakršno koli povezano poizvedbo, se obrnite na nas prek brezplačnega Product Support Forum.
povezani članki
Obiščite naslednje povezave, če želite izvedeti več o: