Všetci vieme, že súbory PDF sú jedným z najdôležitejších a najrozšírenejších digitálnych formátov používaných na spoľahlivú prezentáciu a výmenu dokumentov, nezávisle od softvéru, hardvéru alebo operačného systému. V niektorých scenároch by nás však mohlo zaujímať získanie úryvku z veľkých súborov PDF. Alebo môžeme mať požiadavku uložiť PDF do textu online. V tomto článku teda preskúmame podrobnosti o tom, ako vyvinúť prevodník PDF na text pomocou Java REST API.
API generátora PDF
Získajte pákový efekt na generovanie dokumentov PDF pomocou šablón alebo úplne od začiatku pomocou nášho REST API. Rozhranie API vám zároveň umožňuje upravovať a transformovať súbory PDF do iných podporovaných formátov. Môžete tiež využiť výhody extrahovania textu z PDF, dešifrovania a spájania súborov PDF pomocou Java Cloud SDK. Teraz, aby sme mohli použiť Aspose.PDF Cloud SDK for Java, musíme pridať jeho referenciu do našej aplikácie Java zahrnutím nasledujúcich podrobností do pom.xml (projekt typu zostavy maven).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Po inštalácii si musíme vytvoriť bezplatný účet cez Cloud Dashboard a získať personalizované prihlasovacie údaje klienta.
Extrahujte text z PDF pomocou Java
Poďme preskúmať podrobnosti na extrahovanie textu z PDF pomocou Java cloud SDK. V tomto príklade použijeme nasledujúci vstup PdfWithTable.pdf súbor.
// ďalšie príklady nájdete na https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Získajte ClientID a ClientSecret z https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// vytvorte inštanciu PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// názov vstupného PDF dokumentu
String name = "PdfWithTable.pdf";
// čítať obsah vstupného súboru PDF
File file = new File(name);
// nahrať PDF do cloudového úložiska
pdfApi.uploadFile("input.pdf", file, null);
// X-ová súradnica ľavého dolného rohu
Double LLX = 500.0;
// Y - súradnica ľavého dolného rohu.
Double LLY = 500.0;
// X - súradnica pravého horného rohu.
Double URX = 800.0;
// Y - súradnica pravého horného rohu.
Double URY = 800.0;
// volanie API na prevod PDF na text
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Prechádzať cez jednotlivé výskyty textu
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// písať textový obsah v konzole
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Teraz sa pokúsme porozumieť vyššie uvedenému útržku kódu:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Vytvorte inštanciu PdfApi a zároveň odovzdajte prispôsobené poverenia ako argumenty.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Prečítajte si vstupné PDF pomocou objektu File a nahrajte ho do cloudového úložiska pomocou metódy uploadFile(…) triedy PdfAPi. Upozorňujeme, že súbor sa nahráva s názvom použitým v metóde uploadFile.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Teraz zavolajte metódu getText(..), kde zadáme názov vstupného PDF súboru, obdĺžnikové rozmery stránky, z ktorej potrebujeme extrahovať textový obsah a extrahovaný obsah vrátime do objektu TextRectsResponse.
response.getTextOccurrences().getList().get(counter).getText()
Nakoniec, aby sme vytlačili extrahovaný textový obsah, budeme iterovať všetky TextOccurances a zobraziť ich v konzole.
PDF na text pomocou príkazov cURL
Okrem útržku kódu Java môžeme vykonávať aj operácie pdftotext pomocou príkazov cURL. Teraz je jedným z predpokladov tohto prístupu vygenerovanie prístupového tokenu JWT (na základe poverení klienta) pomocou nasledujúceho príkazu.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Po vygenerovaní JWT spustite nasledujúci príkaz na extrahovanie textu zo súboru PDF, ktorý je už dostupný v cloudovom úložisku.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Rýchly tip
Hľadáte bezplatnú aplikáciu PDF na text! Skúste použiť náš analyzátor PDF.
Záverečné poznámky
Na záver, extrahovanie textu zo súborov PDF pomocou Java môže byť výkonným riešením pre tých, ktorí chcú automatizovať svoje potreby spracovania údajov a analýzy. S pomocou tejto príručky máte teraz pevný základ, na ktorom môžete stavať, a môžete jednoducho implementovať svoje vlastné riešenie založené na jazyku Java na extrakciu textu z dokumentov PDF. Či už chcete extrahovať text na analýzu údajov, strojové učenie alebo akýkoľvek iný účel, Java poskytuje flexibilnú a spoľahlivú platformu pre vaše potreby. Takže choďte do toho a otestujte svoje novonadobudnuté zručnosti!
Ak máte záujem preskúmať ďalšie vzrušujúce funkcie, ktoré ponúka rozhranie API, prečítajte si dokumentáciu k produktu. Nakoniec, ak sa pri používaní rozhrania API stretnete s akýmkoľvek problémom alebo máte akýkoľvek súvisiaci dotaz, neváhajte nás kontaktovať prostredníctvom bezplatného Fóra podpory produktov.
Súvisiace články
Ak chcete získať viac informácií, navštívte nasledujúce odkazy: