Tiedämme kaikki, että PDF-tiedostot ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista muodoista, joita käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta. Joissakin tilanteissa saatamme kuitenkin olla kiinnostuneita saamaan otteen suurista PDF-tiedostoista. Tai meillä voi olla vaatimus tallentaa PDF-tiedosto tekstiksi verkossa. Joten tässä artikkelissa aiomme tutkia yksityiskohtia PDF-tekstimuuntimen kehittämisestä Java REST API:n avulla.
PDF Generator API
Hyödynnä PDF-dokumenttien luominen malleilla tai alusta REST API:n avulla. Samanaikaisesti API mahdollistaa myös PDF-tiedostojen muokkaamisen ja muuntamisen muihin tuettuihin muotoihin. Voit myös hyödyntää tekstin purkamista PDF-tiedostosta, salauksen purkamista ja PDF-tiedostojen yhdistämistä Java Cloud SDK:n avulla. Jotta voisimme nyt käyttää Aspose.PDF Cloud SDK:ta Javalle, meidän on lisättävä sen viite Java-sovellukseemme sisällyttämällä seuraavat tiedot pom.xml-tiedostoon (maven build type project).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Asennuksen jälkeen meidän on luotava ilmainen tili Cloud Dashboardin kautta ja hankittava henkilökohtaiset asiakastunnistetiedot.
Pura teksti PDF-tiedostosta Javalla
Tutkitaan yksityiskohtia tekstin poimimiseksi PDF-tiedostosta Java-pilvi-SDK:n avulla. Tässä esimerkissä aiomme käyttää seuraavaa syötettä PdfWithTable.pdf tiedosto.
// Lisää esimerkkejä on osoitteessa https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Hanki ClientID ja ClientSecret osoitteesta https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// luo PdfApi-esiintymä
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// syötettävän PDF-dokumentin nimi
String name = "PdfWithTable.pdf";
// lue syötetyn PDF-tiedoston sisältö
File file = new File(name);
// lataa PDF pilvitallennustilaan
pdfApi.uploadFile("input.pdf", file, null);
// Vasemman alakulman X-koordinaatti
Double LLX = 500.0;
// Y - vasemman alakulman koordinaatti.
Double LLY = 500.0;
// X - oikean yläkulman koordinaatti.
Double URX = 800.0;
// Y - oikean yläkulman koordinaatti.
Double URY = 800.0;
// soita API muuntaa PDF tekstiksi
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Selaa yksittäisen tekstin esiintymisen läpi
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// kirjoittaa tekstisisältöä konsoliin
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Yritetään nyt ymmärtää yllä määritetty koodinpätkä:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Luo PdfApi-esiintymä ja välität henkilökohtaiset tunnistetiedot argumenteina.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Lue syötetty PDF File-objektilla ja lataa se pilvitallennustilaan PdfAPi-luokan uploadFile(…) -menetelmällä. Huomaa, että tiedosto ladataan nimellä, jota käytetään uploadFile-menetelmässä.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Kutsu nyt getText(..) -menetelmä, jossa määritetään syötettävän PDF-tiedoston nimi, suorakulmaiset mitat sivulla, josta meidän on purettava tekstisisältö ja palautettava purettu sisältö TextRectsResponse-objektiin.
response.getTextOccurrences().getList().get(counter).getText()
Lopuksi, tulostaaksemme puretun tekstisisällön, aiomme iteroida kaikki TextOccurances ja näyttää ne konsolissa.
PDF tekstiksi cURL-komentojen avulla
Java-koodinpätkän lisäksi voimme suorittaa pdftotext-toiminnon myös cURL-komennoilla. Nyt yksi tämän lähestymistavan edellytyksistä on luoda JWT-käyttöoikeustunnus (perustuu asiakkaan tunnistetietoihin) käyttämällä seuraavaa komentoa.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Kun JWT on luotu, suorita seuraava komento purkaaksesi tekstiä pilvitallennustilassa olevasta PDF-tiedostosta.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Nopea vinkki
Etsitkö ilmaista PDF-tekstisovellusta! Yritä käyttää PDF-jäsennintä.
Päätelmät
Yhteenvetona voidaan todeta, että tekstin purkaminen PDF-tiedostoista Javalla voi olla tehokas ratkaisu niille, jotka haluavat automatisoida tietojenkäsittely- ja analysointitarpeensa. Tämän oppaan avulla sinulla on nyt vankka perusta, jolle rakentaa ja voit helposti toteuttaa oman Java-pohjaisen ratkaisusi tekstin poimimiseen PDF-dokumenteista. Halusitpa sitten poimia tekstiä data-analyysiä, koneoppimista tai muita tarkoituksia varten, Java tarjoaa joustavan ja luotettavan alustan tarpeisiisi. Joten mene eteenpäin ja testaa juuri hankkimasi taitosi!
Jos olet kiinnostunut tutustumaan muihin API:n tarjoamiin jännittäviin ominaisuuksiin, tutustu Tuotedokumentaatioon. Lopuksi, jos kohtaat ongelmia API:n käytössä tai sinulla on asiaan liittyviä kysymyksiä, ota meihin yhteyttä ilmaisen tuotetukifoorumin kautta.
Aiheeseen liittyvät artikkelit
Saat lisätietoja seuraavista linkeistä: