poimia tekstiä PDF-tiedostosta

Pura teksti PDF-tiedostosta Javassa

Tiedämme kaikki, että PDF-tiedostot ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista muodoista, joita käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta. Joissakin tilanteissa saatamme kuitenkin olla kiinnostuneita saamaan otteen suurista PDF-tiedostoista. Tai meillä voi olla vaatimus tallentaa PDF-tiedosto tekstiksi verkossa. Joten tässä artikkelissa aiomme tutkia yksityiskohtia PDF-tekstimuuntimen kehittämisestä Java REST API:n avulla.

PDF Generator API

Hyödynnä PDF-dokumenttien luominen malleilla tai alusta REST API:n avulla. Samanaikaisesti API mahdollistaa myös PDF-tiedostojen muokkaamisen ja muuntamisen muihin tuettuihin muotoihin. Voit myös hyödyntää tekstin purkamista PDF-tiedostosta, salauksen purkamista ja PDF-tiedostojen yhdistämistä Java Cloud SDK:n avulla. Jotta voisimme nyt käyttää Aspose.PDF Cloud SDK:ta Javalle, meidän on lisättävä sen viite Java-sovellukseemme sisällyttämällä seuraavat tiedot pom.xml-tiedostoon (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Asennuksen jälkeen meidän on luotava ilmainen tili Cloud Dashboardin kautta ja hankittava henkilökohtaiset asiakastunnistetiedot.

Pura teksti PDF-tiedostosta Javalla

Tutkitaan yksityiskohtia tekstin poimimiseksi PDF-tiedostosta Java-pilvi-SDK:n avulla. Tässä esimerkissä aiomme käyttää seuraavaa syötettä PdfWithTable.pdf tiedosto.

pdf tekstiksi ocr

Kuva 1: - Syötä tiedosto PDF-tekstiin poimimista varten.

pdf tekstiksi ocr

Kuva 2: - Pura teksti PDF-esikatselusta

// Lisää esimerkkejä on osoitteessa https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Hanki ClientID ja ClientSecret osoitteesta https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // luo PdfApi-esiintymä
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // syötettävän PDF-dokumentin nimi
    String name = "PdfWithTable.pdf";
		        
    // lue syötetyn PDF-tiedoston sisältö
    File file = new File(name); 
    // lataa PDF pilvitallennustilaan
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Vasemman alakulman X-koordinaatti
    Double LLX = 500.0;
    // Y - vasemman alakulman koordinaatti.
    Double LLY = 500.0;
    // X - oikean yläkulman koordinaatti.
    Double URX = 800.0;
    // Y - oikean yläkulman koordinaatti.
    Double URY = 800.0;
			       
    // soita API muuntaa PDF tekstiksi
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Selaa yksittäisen tekstin esiintymisen läpi
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // kirjoittaa tekstisisältöä konsoliin
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Yritetään nyt ymmärtää yllä määritetty koodinpätkä:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Luo PdfApi-esiintymä ja välität henkilökohtaiset tunnistetiedot argumenteina.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Lue syötetty PDF File-objektilla ja lataa se pilvitallennustilaan PdfAPi-luokan uploadFile(…) -menetelmällä. Huomaa, että tiedosto ladataan nimellä, jota käytetään uploadFile-menetelmässä.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Kutsu nyt getText(..) -menetelmä, jossa määritetään syötettävän PDF-tiedoston nimi, suorakulmaiset mitat sivulla, josta meidän on purettava tekstisisältö ja palautettava purettu sisältö TextRectsResponse-objektiin.

response.getTextOccurrences().getList().get(counter).getText()

Lopuksi, tulostaaksemme puretun tekstisisällön, aiomme iteroida kaikki TextOccurances ja näyttää ne konsolissa.

PDF tekstiksi cURL-komentojen avulla

Java-koodinpätkän lisäksi voimme suorittaa pdftotext-toiminnon myös cURL-komennoilla. Nyt yksi tämän lähestymistavan edellytyksistä on luoda JWT-käyttöoikeustunnus (perustuu asiakkaan tunnistetietoihin) käyttämällä seuraavaa komentoa.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kun JWT on luotu, suorita seuraava komento purkaaksesi tekstiä pilvitallennustilassa olevasta PDF-tiedostosta.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Nopea vinkki

Etsitkö ilmaista PDF-tekstisovellusta! Yritä käyttää PDF-jäsennintä.

Päätelmät

Yhteenvetona voidaan todeta, että tekstin purkaminen PDF-tiedostoista Javalla voi olla tehokas ratkaisu niille, jotka haluavat automatisoida tietojenkäsittely- ja analysointitarpeensa. Tämän oppaan avulla sinulla on nyt vankka perusta, jolle rakentaa ja voit helposti toteuttaa oman Java-pohjaisen ratkaisusi tekstin poimimiseen PDF-dokumenteista. Halusitpa sitten poimia tekstiä data-analyysiä, koneoppimista tai muita tarkoituksia varten, Java tarjoaa joustavan ja luotettavan alustan tarpeisiisi. Joten mene eteenpäin ja testaa juuri hankkimasi taitosi!

Jos olet kiinnostunut tutustumaan muihin API:n tarjoamiin jännittäviin ominaisuuksiin, tutustu Tuotedokumentaatioon. Lopuksi, jos kohtaat ongelmia API:n käytössä tai sinulla on asiaan liittyviä kysymyksiä, ota meihin yhteyttä ilmaisen tuotetukifoorumin kautta.

Aiheeseen liittyvät artikkelit

Saat lisätietoja seuraavista linkeistä: