Súbor PDF sa zvyčajne skladá z textu, obrázka, nadpisu, anotácií a ďalších prvkov. A keďže tento formát zachováva rozloženie dokumentu naprieč platformami (Desktop / Mobile atď.), je široko používaný na zdieľanie informácií cez internet. Môžeme však mať požiadavku na extrahovanie textového obsahu dokumentu PDF na ďalšie spracovanie. Takže v tomto článku budeme diskutovať o podrobnostiach, ako extrahovať text z PDF pomocou Java Cloud SDK. Po dokončení operácie sa výstup uloží vo formáte TXT.
- Rozhranie API na konverziu PDF do TXT
- PDF na text v jazyku Java
- Extrahujte text z PDF pomocou príkazov cURL
Rozhranie API na konverziu PDF do TXT
Aspose.PDF Cloud SDK for Java je naše ocenené riešenie REST API, ktoré ponúka možnosti na vytváranie, úpravu a konverziu PDF do formátu JPG, XPS, HTML, DOCX a rôznych iných podporovaných formátov. Teraz, aby ste mohli implementovať možnosti rozpoznávania textu pdf v aplikácii Java, pridajte nasledujúce podrobnosti do pom.xml projektu typu zostavy maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Po inštalácii SDK je ďalším dôležitým krokom vytvorenie bezplatného účtu cez Aspose Cloud. Prihláste sa teda pomocou novo vytvoreného účtu a vyhľadajte/vytvorte ID klienta a tajný kľúč klienta na Cloud Dashboard. Tieto podrobnosti sú potrebné v nasledujúcich častiach.
PDF na text v jazyku Java
Ak chcete vykonať konverziu PDF na text pomocou Java Cloud SDK, postupujte podľa krokov uvedených nižšie. Takže po úspešnej konverzii sa výsledný súbor TXT uloží do cloudového úložiska.
- Najprv musíme vytvoriť objekt PdfApi a zároveň poskytnúť ClientID a Client Secret ako argumenty
- Po druhé, načítajte vstupný súbor PDF pomocou inštancie súboru
- Nahrajte vstupný súbor PDF do cloudového úložiska pomocou metódy uploadFile(…).
- Vytvorenie premennej Integer špecifikujúcej číslo strany PDF na extrakciu textu a dvojité inštancie označujúce obdĺžnikovú oblasť stránky, z ktorej potrebujeme extrahovať textový obsah
- Nakoniec zavolajte metódu getPageText(…), aby ste získali textový obsah zo vstupného PDF
try
{
// Získajte ClientID a ClientSecret z https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// vytvorte inštanciu PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// názov vstupného PDF dokumentu
String inputFile = "marketing.pdf";
// čítať obsah vstupného súboru PDF
File file = new File("//Users//"+inputFile);
// nahrať PDF do cloudového úložiska
pdfApi.uploadFile("input.pdf", file, null);
// konkrétnu stránku PDF na konverziu
int pageNumber =1;
// X-ová súradnica ľavého dolného rohu
Double LLX = 0.0;
// Y - súradnica ľavého dolného rohu.
Double LLY = 0.0;
// X - súradnica pravého horného rohu.
Double URX = 800.0;
// Y - súradnica pravého horného rohu.
Double URY = 800.0;
// volanie API na prevod PDF na text
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// výsledná inštancia súboru TXT
FileWriter myWriter = new FileWriter("filename.txt");
// Teraz prejdite cez jednotlivé výskyty textu a získajte výsledok tlače v konzole
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// zapisovať textový obsah do súboru TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// zatvorte obslužný program TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Vzorový súbor PDF použitý vo vyššie uvedenom príklade si môžete stiahnuť z marketing.pdf a extracted.txt
Extrahujte text z PDF pomocou príkazov cURL
Rozhrania REST API sú ľahko dostupné prostredníctvom príkazov cURL, takže v tejto časti preskúmame možnosť, ako môžeme extrahovať textový obsah z PDF pomocou príkazov cURL. Takže ako nevyhnutnú podmienku musíme najprv vygenerovať prístupový token JWT (na základe poverení klienta) pri vykonávaní nasledujúceho príkazu.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Keď máme token JWT, musíme vykonať nasledujúci príkaz na extrahovanie všetkých výskytov textu v dokumente PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Záver
Tento článok vysvetľuje podrobnosti o tom, ako previesť PDF na TXT pomocou Java Cloud SDK. Zároveň sme tiež preskúmali možnosti extrahovania textu z PDF pomocou príkazov cURL. Takže vďaka flexibilite prechádzania medzi viacerými stránkami PDF získame kontrolu nad tým, kde sa má obsah extrahovať. Dôrazne vám odporúčame preskúmať produkt Dokumentácia a dozvedieť sa viac o ďalších zaujímavých funkciách, ktoré ponúka Java Cloud API. Keďže všetky naše cloudové súpravy SDK sú publikované pod licenciou MIT, môžete zvážiť stiahnutie úplného zdrojového kódu z GitHub a jeho úpravu podľa vašich požiadaviek. V prípade akýchkoľvek problémov môžete zvážiť oslovenie nás, aby sme ich rýchlo vyriešili prostredníctvom bezplatného fóra podpory produktov.
Súvisiace články
Ak chcete získať viac informácií, navštívte nasledujúce odkazy: