Datoteka PDF je običajno sestavljena iz besedila, slike, naslova, opomb in drugih elementov. In ker ta oblika ohranja postavitev dokumenta na različnih platformah (namizni / mobilni itd.), se pogosto uporablja za izmenjavo informacij prek interneta. Vendar pa bomo morda morali izvleči besedilno vsebino dokumenta PDF za nadaljnjo obdelavo. Zato bomo v tem članku razpravljali o podrobnostih o tem, kako izvleči besedilo iz PDF-ja s pomočjo Java Cloud SDK. Ko je operacija končana, se izhod shrani v format TXT.
API za pretvorbo PDF v TXT
Aspose.PDF Cloud SDK za Javo je naša nagrajena rešitev REST API, ki ponuja zmožnosti za ustvarjanje, urejanje in pretvorbo PDF v JPG, XPS, HTML, DOCX in vrsto drugih podprtih formatov. Za implementacijo zmožnosti prepoznavanja besedila pdf v aplikaciji Java dodajte naslednje podrobnosti v pom.xml projekta vrste gradnje maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Po namestitvi SDK je naslednji pomemben korak ustvarjanje brezplačnega računa prek Aspose Cloud. Prijavite se torej z novo ustvarjenim računom in poiščite/ustvarite ID stranke in skrivnost stranke na Nadzorna plošča v oblaku. Te podrobnosti so obvezne v naslednjih razdelkih.
PDF v besedilo v Javi
Prosimo, sledite spodnjim korakom za izvedbo pretvorbe PDF v besedilo z Java Cloud SDK. Tako se po uspešni pretvorbi nastala datoteka TXT shrani v shrambo v oblaku.
- Najprej moramo ustvariti objekt PdfApi, pri tem pa kot argumenta zagotoviti ClientID in Client Secret
- Drugič, naložite vhodno datoteko PDF s primerkom datoteke
- Prenesite vhodni PDF v shrambo v oblaku z metodo uploadFile(…).
- Ustvari spremenljivko Integer, ki določa številko strani PDF-ja za ekstrakcijo besedila in dvojne primerke, ki označujejo pravokotno območje strani, iz katere moramo ekstrahirati besedilno vsebino
- Končno pokličite metodo getPageText(…), da pridobite besedilno vsebino iz vhodnega PDF-ja
try
{
// Pridobite ClientID in ClientSecret na https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// ustvarite primerek PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// ime vhodnega dokumenta PDF
String inputFile = "marketing.pdf";
// preberite vsebino vhodne datoteke PDF
File file = new File("//Users//"+inputFile);
// naloži PDF v shrambo v oblaku
pdfApi.uploadFile("input.pdf", file, null);
// določeno stran PDF-ja za pretvorbo
int pageNumber =1;
// X-koordinata spodnjega levega kota
Double LLX = 0.0;
// Y - koordinata spodnjega levega kota.
Double LLY = 0.0;
// X - koordinata zgornjega desnega kota.
Double URX = 800.0;
// Y - koordinata zgornjega desnega kota.
Double URY = 800.0;
// klic API za pretvorbo PDF v besedilo
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// nastali primerek datoteke TXT
FileWriter myWriter = new FileWriter("filename.txt");
// Zdaj se pomaknite skozi posamezno pojavnost besedila in dobite rezultat tiskanja v konzoli
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// pisanje besedilne vsebine v datoteko TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// zaprite upravljalnik TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Vzorčno datoteko PDF, uporabljeno v zgornjem primeru, lahko prenesete iz marketing.pdf in extracted.txt
Ekstrahirajte besedilo iz PDF-ja z ukazi cURL
Do API-jev REST je mogoče zlahka dostopati prek ukazov cURL, zato bomo v tem razdelku raziskali možnost, kako lahko izvlečemo besedilno vsebino iz PDF-ja z ukazi cURL. Kot predpogoj moramo torej med izvajanjem naslednjega ukaza najprej ustvariti žeton dostopa JWT (na podlagi poverilnic odjemalca).
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Ko imamo žeton JWT, moramo izvesti naslednji ukaz, da ekstrahiramo vse pojavitve besedila v dokumentu PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Zaključek
V tem članku so razložene podrobnosti o tem, kako pretvoriti PDF v TXT z Java Cloud SDK. Hkrati smo raziskali tudi možnosti za ekstrahiranje besedila iz PDF z uporabo ukazov cURL. Torej s prilagodljivostjo premikanja med več stranmi PDF dobimo nadzor nad tem, kam izvleči vsebino. Toplo vam priporočamo, da raziščete izdelek Documentation, če želite izvedeti več o drugih razburljivih funkcijah, ki jih ponuja Java Cloud API. Poleg tega, ker so vsi naši SDK-ji v oblaku objavljeni pod licenco MIT, lahko razmislite o prenosu celotne izvorne kode iz GitHub in jo spremenite glede na svoje zahteve. V primeru kakršnih koli težav se lahko obrnete na nas za hitro rešitev prek brezplačnega foruma za podporo izdelkom.
povezani članki
Obiščite naslednje povezave, če želite izvedeti več o: