PDF-tiedosto koostuu yleensä tekstistä, kuvasta, otsikosta, huomautuksista ja muista elementeistä. Ja koska tämä muoto säilyttää asiakirjan asettelun eri alustoilla (työpöytä / mobiili jne.), joten sitä käytetään laajasti tiedon jakamiseen Internetissä. Meillä voi kuitenkin olla vaatimus poimia PDF-dokumentin tekstisisältö jatkokäsittelyä varten. Joten tässä artikkelissa aiomme keskustella yksityiskohdista tekstin purkamiseen PDF-tiedostosta Java Cloud SDK:n avulla. Kun toiminto on valmis, tuloste tallennetaan TXT-muodossa.
PDF to TXT Conversion API
Aspose.PDF Cloud SDK for Java on palkittu REST API -ratkaisumme, joka tarjoaa mahdollisuuden luoda, muokata ja muuntaa PDF-tiedostoja JPG-, XPS-, HTML-, DOCX- ja moniin muihin tuettuihin muotoihin. Ota nyt käyttöön pdf-tekstintunnistusominaisuudet Java-sovelluksessa lisäämällä seuraavat tiedot maven build -tyyppisen projektin pom.xml-tiedostoon.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
SDK:n asennuksen jälkeen seuraava tärkeä vaihe on ilmaisen tilin luominen Aspose Cloudin kautta. Joten kirjaudu sisään äskettäin luodulla tilillä ja etsi/luo asiakastunnus ja asiakassalaisuus osoitteessa Cloud Dashboard. Nämä tiedot vaaditaan seuraavissa osissa.
PDF tekstiksi Javassa
Suorita PDF-muunnos tekstiksi Java Cloud SDK:n avulla noudattamalla alla annettuja ohjeita. Joten onnistuneen muuntamisen jälkeen tuloksena oleva TXT-tiedosto tallennetaan pilvitallennustilaan.
- Ensin meidän on luotava PdfApi-objekti ja annettava ClientID ja Client Secret argumenteiksi
- Toiseksi lataa syöttö PDF-tiedosto käyttämällä Tiedosto-instanssia
- Lataa syötetty PDF pilvitallennustilaan käyttämällä uploadFile(…) -menetelmää
- Luo kokonaislukumuuttuja, joka määrittää PDF-tiedoston sivunumeron tekstin purkamista varten ja kaksoisinstanssit, jotka osoittavat sivun suorakaiteen muotoisen alueen, josta meidän on purettava tekstisisältö
- Kutsu lopuksi getPageText(…)-menetelmä noutaaksesi tekstisisältöä syöte-PDF:stä
try
{
// Hanki ClientID ja ClientSecret osoitteesta https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// luo PdfApi-esiintymä
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// syötettävän PDF-dokumentin nimi
String inputFile = "marketing.pdf";
// lue syötetyn PDF-tiedoston sisältö
File file = new File("//Users//"+inputFile);
// lataa PDF pilvitallennustilaan
pdfApi.uploadFile("input.pdf", file, null);
// tietyn PDF-sivun muuntamista varten
int pageNumber =1;
// Vasemman alakulman X-koordinaatti
Double LLX = 0.0;
// Y - vasemman alakulman koordinaatti.
Double LLY = 0.0;
// X - oikean yläkulman koordinaatti.
Double URX = 800.0;
// Y - oikean yläkulman koordinaatti.
Double URY = 800.0;
// soita API muuntaa PDF tekstiksi
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// tuloksena oleva TXT-tiedoston esiintymä
FileWriter myWriter = new FileWriter("filename.txt");
// Käy nyt läpi yksittäisen tekstin esiintymisen, niin saat tulostuksen konsolissa
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// kirjoittaa tekstisisältöä TXT-tiedostoon
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// sulje TXT-käsittelijä
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Yllä olevassa esimerkissä käytetty PDF-mallitiedosto voidaan ladata osoitteesta marketing.pdf ja extracted.txt
Pura teksti PDF-tiedostosta cURL-komentojen avulla
REST-sovellusliittymiin pääsee helposti cURL-komennoilla, joten tässä osiossa aiomme tutkia vaihtoehtoa, kuinka voimme poimia tekstisisältöä PDF-tiedostosta cURL-komentojen avulla. Joten ennakkoedellytyksenä meidän on ensin luotava JWT-käyttöoikeustunnus (perustuu asiakkaan tunnistetietoihin) samalla kun suoritamme seuraavan komennon.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Kun meillä on JWT-tunnus, meidän on suoritettava seuraava komento poimiaksemme kaikki PDF-dokumentin tekstiesiintymät.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Johtopäätös
Tässä artikkelissa on selitetty yksityiskohdat PDF-tiedoston muuntamisesta TXT:ksi Java Cloud SDK:n avulla. Samaan aikaan olemme myös tutkineet vaihtoehtoja tekstin purkamiseen PDF-tiedostosta cURL-komentojen avulla. Useiden PDF-sivujen välillä liikkumisen joustavuuden ansiosta saamme siis hallinnan siitä, mistä sisältö poimitaan. Suosittelemme, että tutustut tuotteeseen Dokumentaatio saadaksesi lisätietoja Java Cloud API:n tarjoamista muista jännittävistä ominaisuuksista. Koska kaikki Cloud SDK:mme on julkaistu MIT-lisenssillä, voit myös ladata täydellisen lähdekoodin GitHubista ja muokata sitä tarpeidesi mukaan. Jos sinulla on ongelmia, voit ottaa meihin yhteyttä saadaksesi nopean ratkaisun ilmaisen tuotetukifoorumin kautta.
Aiheeseen liittyvät artikkelit
Saat lisätietoja seuraavista linkeistä: