ekstrakti teksti PDF-ist

Ekstraktige Java-vormingus tekst PDF-ist

Me kõik teame, et PDF failid on üks tähtsamaid ja laialdasemalt kasutatavaid digitaalseid vorminguid, mida kasutatakse dokumentide usaldusväärseks esitamiseks ja vahetamiseks, sõltumata tarkvarast, riistvarast või operatsioonisüsteemist. Mõne stsenaariumi korral võime aga olla huvitatud suurtest PDF-failidest väljavõtte saamisest. Või meil võib olla nõue salvestada PDF-fail veebis tekstina. Nii et selles artiklis uurime üksikasjalikult, kuidas Java REST API abil PDF-teksti muundurit arendada.

PDF-i generaatori API

Kasutage PDF-dokumentide genereerimiseks mallide või nullist meie REST API-liidese abil võimalust. Samal ajal võimaldab API ka PDF-faile redigeerida ja teisendada muudesse toetatud vormingutesse. Võite kasutada ka PDF-ist teksti eraldamise, PDF-failide dekrüpteerimise ja liitmise eeliseid Java Cloud SDK abil. Nüüd peame Aspose.PDF Cloud SDK for Java kasutamiseks lisama selle viite oma Java-rakendusse, lisades faili pom.xml (maven build type project) järgmised üksikasjad.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Pärast installimist peame looma Cloud Dashboard kaudu tasuta konto ja hankima isikupärastatud kliendimandaadid.

Ekstraktige tekst PDF-ist Java abil

Uurime üksikasju, kuidas Java pilve SDK abil PDF-ist teksti ekstraktida. Selles näites kasutame järgmist sisendit PdfWithTable.pdf faili.

pdf tekstiks ocr

Pilt 1: PDF-i teksti ekstraktimiseks sisendfail.

pdf tekstiks ocr

Pilt 2: ekstraktige PDF-i eelvaatest tekst

// rohkemate näidete saamiseks külastage aadressi https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Hankige ClientID ja ClientSecret saidilt https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // luua PdfApi eksemplar
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // sisestatud PDF-dokumendi nimi
    String name = "PdfWithTable.pdf";
		        
    // lugege sisend-PDF-faili sisu
    File file = new File(name); 
    // laadige PDF pilvesalvestusse üles
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Alumise vasaku nurga X-koordinaat
    Double LLX = 500.0;
    // Y - vasaku alumise nurga koordinaat.
    Double LLY = 500.0;
    // X - ülemise parema nurga koordinaat.
    Double URX = 800.0;
    // Y - parema ülanurga koordinaat.
    Double URY = 800.0;
			       
    // helistage API-le, et teisendada PDF-i tekstiks
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Üksiku teksti esinemise läbimine
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // kirjutage konsooli tekstisisu
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Proovime nüüd mõista ülaltoodud koodilõiku:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Looge PdfApi eksemplar, edastades samal ajal isikupärastatud mandaadid argumentidena.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Lugege sisend-PDF-i failiobjekti abil ja laadige see pilvesalvestusse, kasutades PdfAPi klassi meetodit uploadFile(…). Pange tähele, et fail laaditakse üles selle nimega, mida kasutatakse uploadFile meetodis.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Nüüd kutsuge meetod getText(..), kus määrame sisend-PDF-faili nime, lehe ristkülikukujulised mõõtmed, millest peame tekstilise sisu ekstraheerima ja tagastama ekstraktitud sisu TextRectsResponse’i objektile.

response.getTextOccurrences().getList().get(counter).getText()

Lõpetuseks, ekstraheeritud tekstisisu printimiseks kordame läbi kõik TextOccurances ja kuvame need konsoolis.

PDF tekstiks, kasutades cURL-i käske

Peale Java koodilõigu saame teha ka pdftotext operatsiooni, kasutades käske cURL. Nüüd on selle lähenemisviisi üks eeldusi luua JWT-pääsuluba (põhineb kliendi mandaatidel), kasutades järgmist käsku.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kui JWT on loodud, täitke järgmine käsk, et ekstraheerida tekst pilvesalvestuses juba saadaval olevast PDF-failist.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Kiire näpunäide

Otsite PDF-i tekstiks tasuta rakendust! Proovige kasutada meie PDF-i parserit.

Lõppsõna

Kokkuvõtteks võib öelda, et Java abil PDF-failidest teksti eraldamine võib olla võimas lahendus neile, kes soovivad automatiseerida oma andmetöötlus- ja analüüsivajadusi. Selle juhendi abil on teil nüüd kindel alus, millele tugineda, ja saate hõlpsasti rakendada oma Java-põhist lahendust PDF-dokumentidest teksti eraldamiseks. Olenemata sellest, kas soovite teksti ekstraheerida andmete analüüsiks, masinõppeks või mõnel muul eesmärgil, pakub Java teie vajadustele paindlikku ja usaldusväärset platvormi. Nii et mine ja pane oma äsja omandatud oskused proovile!

Kui olete huvitatud API pakutavate muude põnevate funktsioonide avastamisest, tutvuge tootedokumentatsiooniga. Lõpuks, kui teil tekib API kasutamisel probleeme või teil on sellega seotud päringuid, võtke meiega ühendust tasuta tootetoe foorumi kaudu.

seotud artiklid

Lisateabe saamiseks külastage järgmisi linke: