izvleček besedila iz PDF-ja

Ekstrahirajte besedilo iz PDF-ja v Javi

Vsi vemo, da so datoteke PDF eden najpomembnejših in najbolj razširjenih digitalnih formatov, ki se uporabljajo za zanesljivo predstavitev in izmenjavo dokumentov, neodvisno od programske, strojne opreme ali operacijskega sistema. Vendar nas bo v nekaterih scenarijih morda zanimal izvleček iz velikih datotek PDF. Lahko pa imamo zahtevo, da PDF shranimo v besedilo na spletu. Zato bomo v tem članku raziskali podrobnosti o tem, kako razviti pretvornik PDF v besedilo z uporabo Java REST API.

API za ustvarjanje PDF

Pridobite vzvod za ustvarjanje dokumentov PDF z uporabo predlog ali iz nič z uporabo našega API-ja REST. Istočasno vam API omogoča tudi urejanje in preoblikovanje datotek PDF v druge podprte formate. Izkoristite lahko tudi prednosti ekstrahiranja besedila iz PDF-ja, dešifriranja in združevanja datotek PDF z Java Cloud SDK. Zdaj, če želimo uporabiti Aspose.PDF Cloud SDK za Javo, moramo dodati njegovo referenco v našo aplikacijo Java, tako da vključimo naslednje podrobnosti v pom.xml (projekt vrste gradnje maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Po namestitvi moramo ustvariti brezplačen račun na Cloud Dashboard in pridobiti prilagojene poverilnice odjemalca.

Ekstrahirajte besedilo iz PDF z uporabo Jave

Raziščimo podrobnosti za ekstrahiranje besedila iz PDF-ja z Java Cloud SDK. V tem primeru bomo uporabili naslednji vnos PdfWithTable.pdf mapa.

pdf v besedilo ocr

Slika 1: - Vhodna datoteka za ekstrakcijo PDF v besedilo.

pdf v besedilo ocr

Slika 2: - Izvleček besedila iz predogleda PDF

// za več primerov obiščite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Pridobite ClientID in ClientSecret na https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // ustvarite primerek PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // ime vhodnega dokumenta PDF
    String name = "PdfWithTable.pdf";
		        
    // preberite vsebino vhodne datoteke PDF
    File file = new File(name); 
    // naloži PDF v shrambo v oblaku
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koordinata spodnjega levega kota
    Double LLX = 500.0;
    // Y - koordinata spodnjega levega kota.
    Double LLY = 500.0;
    // X - koordinata zgornjega desnega kota.
    Double URX = 800.0;
    // Y - koordinata zgornjega desnega kota.
    Double URY = 800.0;
			       
    // klic API za pretvorbo PDF v besedilo
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Premik skozi posamezno pojavljanje besedila
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // pisanje besedilne vsebine v konzolo
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Zdaj pa poskusimo razumeti zgoraj navedeni delček kode:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Ustvarite primerek PdfApi, medtem ko kot argumente posredujete prilagojene poverilnice.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Preberite vhodni PDF z uporabo predmeta File in ga naložite v shrambo v oblaku z uporabo metode uploadFile(…) razreda PdfAPi. Upoštevajte, da je datoteka naložena z imenom, uporabljenim v metodi uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Sedaj pokličemo metodo getText(..), kjer podamo ime vhodne datoteke PDF, pravokotne dimenzije na strani, iz katere moramo ekstrahirati besedilno vsebino in vrnemo ekstrahirano vsebino objektu TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Nazadnje, da bi natisnili ekstrahirano besedilno vsebino, bomo ponovili vse TextOccurances in jih prikazali v konzoli.

PDF v besedilo z uporabo ukazov cURL

Poleg izrezka kode Java lahko izvedemo tudi operacijo pdftotext z ukazi cURL. Zdaj je eden od predpogojev za ta pristop generiranje žetona dostopa JWT (na podlagi poverilnic odjemalca) z uporabo naslednjega ukaza.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ko je JWT ustvarjen, izvedite naslednji ukaz, da ekstrahirate besedilo iz datoteke PDF, ki je že na voljo v shrambi v oblaku.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Hitri nasvet

Iščete brezplačno aplikacijo PDF to Text! Poskusite uporabiti naš razčlenjevalnik PDF.

Zaključne opombe

Skratka, ekstrahiranje besedila iz datotek PDF z uporabo Jave je lahko zmogljiva rešitev za tiste, ki želijo avtomatizirati svoje potrebe po obdelavi in analizi podatkov. S pomočjo tega vodnika imate zdaj trdne temelje, na katerih lahko gradite, in lahko preprosto implementirate lastno rešitev, ki temelji na Javi, za črpanje besedila iz dokumentov PDF. Ne glede na to, ali želite izvleči besedilo za analizo podatkov, strojno učenje ali kateri koli drug namen, Java ponuja prilagodljivo in zanesljivo platformo za vaše potrebe. Zato kar naprej in preizkusite svoje novo pridobljene veščine!

Če želite raziskati druge vznemirljive funkcije, ki jih ponuja API, raziščite Dokumentacijo izdelka. Nazadnje, če med uporabo API-ja naletite na kakršno koli težavo ali imate kakršno koli povezano poizvedbo, se obrnite na nas prek brezplačnega Product Support Forum.

povezani članki

Obiščite naslednje povezave, če želite izvedeti več o: