extrahovať text z PDF

Extrahujte text z PDF v jazyku Java

Všetci vieme, že súbory PDF sú jedným z najdôležitejších a najrozšírenejších digitálnych formátov používaných na spoľahlivú prezentáciu a výmenu dokumentov, nezávisle od softvéru, hardvéru alebo operačného systému. V niektorých scenároch by nás však mohlo zaujímať získanie úryvku z veľkých súborov PDF. Alebo môžeme mať požiadavku uložiť PDF do textu online. V tomto článku teda preskúmame podrobnosti o tom, ako vyvinúť prevodník PDF na text pomocou Java REST API.

API generátora PDF

Získajte pákový efekt na generovanie dokumentov PDF pomocou šablón alebo úplne od začiatku pomocou nášho REST API. Rozhranie API vám zároveň umožňuje upravovať a transformovať súbory PDF do iných podporovaných formátov. Môžete tiež využiť výhody extrahovania textu z PDF, dešifrovania a spájania súborov PDF pomocou Java Cloud SDK. Teraz, aby sme mohli použiť Aspose.PDF Cloud SDK for Java, musíme pridať jeho referenciu do našej aplikácie Java zahrnutím nasledujúcich podrobností do pom.xml (projekt typu zostavy maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Po inštalácii si musíme vytvoriť bezplatný účet cez Cloud Dashboard a získať personalizované prihlasovacie údaje klienta.

Extrahujte text z PDF pomocou Java

Poďme preskúmať podrobnosti na extrahovanie textu z PDF pomocou Java cloud SDK. V tomto príklade použijeme nasledujúci vstup PdfWithTable.pdf súbor.

pdf do textu ocr

Obrázok 1: Vstupný súbor pre extrakciu PDF do textu.

pdf do textu ocr

Obrázok 2: - Extrahujte text z ukážky PDF

// ďalšie príklady nájdete na https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Získajte ClientID a ClientSecret z https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // vytvorte inštanciu PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // názov vstupného PDF dokumentu
    String name = "PdfWithTable.pdf";
		        
    // čítať obsah vstupného súboru PDF
    File file = new File(name); 
    // nahrať PDF do cloudového úložiska
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-ová súradnica ľavého dolného rohu
    Double LLX = 500.0;
    // Y - súradnica ľavého dolného rohu.
    Double LLY = 500.0;
    // X - súradnica pravého horného rohu.
    Double URX = 800.0;
    // Y - súradnica pravého horného rohu.
    Double URY = 800.0;
			       
    // volanie API na prevod PDF na text
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Prechádzať cez jednotlivé výskyty textu
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // písať textový obsah v konzole
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Teraz sa pokúsme porozumieť vyššie uvedenému útržku kódu:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Vytvorte inštanciu PdfApi a zároveň odovzdajte prispôsobené poverenia ako argumenty.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Prečítajte si vstupné PDF pomocou objektu File a nahrajte ho do cloudového úložiska pomocou metódy uploadFile(…) triedy PdfAPi. Upozorňujeme, že súbor sa nahráva s názvom použitým v metóde uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Teraz zavolajte metódu getText(..), kde zadáme názov vstupného PDF súboru, obdĺžnikové rozmery stránky, z ktorej potrebujeme extrahovať textový obsah a extrahovaný obsah vrátime do objektu TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Nakoniec, aby sme vytlačili extrahovaný textový obsah, budeme iterovať všetky TextOccurances a zobraziť ich v konzole.

PDF na text pomocou príkazov cURL

Okrem útržku kódu Java môžeme vykonávať aj operácie pdftotext pomocou príkazov cURL. Teraz je jedným z predpokladov tohto prístupu vygenerovanie prístupového tokenu JWT (na základe poverení klienta) pomocou nasledujúceho príkazu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Po vygenerovaní JWT spustite nasledujúci príkaz na extrahovanie textu zo súboru PDF, ktorý je už dostupný v cloudovom úložisku.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Rýchly tip

Hľadáte bezplatnú aplikáciu PDF na text! Skúste použiť náš analyzátor PDF.

Záverečné poznámky

Na záver, extrahovanie textu zo súborov PDF pomocou Java môže byť výkonným riešením pre tých, ktorí chcú automatizovať svoje potreby spracovania údajov a analýzy. S pomocou tejto príručky máte teraz pevný základ, na ktorom môžete stavať, a môžete jednoducho implementovať svoje vlastné riešenie založené na jazyku Java na extrakciu textu z dokumentov PDF. Či už chcete extrahovať text na analýzu údajov, strojové učenie alebo akýkoľvek iný účel, Java poskytuje flexibilnú a spoľahlivú platformu pre vaše potreby. Takže choďte do toho a otestujte svoje novonadobudnuté zručnosti!

Ak máte záujem preskúmať ďalšie vzrušujúce funkcie, ktoré ponúka rozhranie API, prečítajte si dokumentáciu k produktu. Nakoniec, ak sa pri používaní rozhrania API stretnete s akýmkoľvek problémom alebo máte akýkoľvek súvisiaci dotaz, neváhajte nás kontaktovať prostredníctvom bezplatného Fóra podpory produktov.

Súvisiace články

Ak chcete získať viac informácií, navštívte nasledujúce odkazy: