PDF to TXT Converter

Kuinka muuntaa PDF TXT:ksi Javalla

PDF-tiedosto koostuu yleensä tekstistä, kuvasta, otsikosta, huomautuksista ja muista elementeistä. Ja koska tämä muoto säilyttää asiakirjan asettelun eri alustoilla (työpöytä / mobiili jne.), joten sitä käytetään laajasti tiedon jakamiseen Internetissä. Meillä voi kuitenkin olla vaatimus poimia PDF-dokumentin tekstisisältö jatkokäsittelyä varten. Joten tässä artikkelissa aiomme keskustella yksityiskohdista tekstin purkamiseen PDF-tiedostosta Java Cloud SDK:n avulla. Kun toiminto on valmis, tuloste tallennetaan TXT-muodossa.

PDF to TXT Conversion API

Aspose.PDF Cloud SDK for Java on palkittu REST API -ratkaisumme, joka tarjoaa mahdollisuuden luoda, muokata ja muuntaa PDF-tiedostoja JPG-, XPS-, HTML-, DOCX- ja moniin muihin tuettuihin muotoihin. Ota nyt käyttöön pdf-tekstintunnistusominaisuudet Java-sovelluksessa lisäämällä seuraavat tiedot maven build -tyyppisen projektin pom.xml-tiedostoon.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

SDK:n asennuksen jälkeen seuraava tärkeä vaihe on ilmaisen tilin luominen Aspose Cloudin kautta. Joten kirjaudu sisään äskettäin luodulla tilillä ja etsi/luo asiakastunnus ja asiakassalaisuus osoitteessa Cloud Dashboard. Nämä tiedot vaaditaan seuraavissa osissa.

PDF tekstiksi Javassa

Suorita PDF-muunnos tekstiksi Java Cloud SDK:n avulla noudattamalla alla annettuja ohjeita. Joten onnistuneen muuntamisen jälkeen tuloksena oleva TXT-tiedosto tallennetaan pilvitallennustilaan.

  • Ensin meidän on luotava PdfApi-objekti ja annettava ClientID ja Client Secret argumenteiksi
  • Toiseksi lataa syöttö PDF-tiedosto käyttämällä Tiedosto-instanssia
  • Lataa syötetty PDF pilvitallennustilaan käyttämällä uploadFile(…) -menetelmää
  • Luo kokonaislukumuuttuja, joka määrittää PDF-tiedoston sivunumeron tekstin purkamista varten ja kaksoisinstanssit, jotka osoittavat sivun suorakaiteen muotoisen alueen, josta meidän on purettava tekstisisältö
  • Kutsu lopuksi getPageText(…)-menetelmä noutaaksesi tekstisisältöä syöte-PDF:stä
try
    {
    // Hanki ClientID ja ClientSecret osoitteesta https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // luo PdfApi-esiintymä
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // syötettävän PDF-dokumentin nimi
    String inputFile = "marketing.pdf";

    // lue syötetyn PDF-tiedoston sisältö
    File file = new File("//Users//"+inputFile);
	    
    // lataa PDF pilvitallennustilaan
    pdfApi.uploadFile("input.pdf", file, null);

    // tietyn PDF-sivun muuntamista varten
    int pageNumber =1;

    // Vasemman alakulman X-koordinaatti
    Double LLX = 0.0;
    // Y - vasemman alakulman koordinaatti.
    Double LLY = 0.0;
    // X - oikean yläkulman koordinaatti.
    Double URX = 800.0;
    // Y - oikean yläkulman koordinaatti.
    Double URY = 800.0;
	       
    // soita API muuntaa PDF tekstiksi
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // tuloksena oleva TXT-tiedoston esiintymä
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Käy nyt läpi yksittäisen tekstin esiintymisen, niin saat tulostuksen konsolissa
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // kirjoittaa tekstisisältöä TXT-tiedostoon
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // sulje TXT-käsittelijä
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Muunna PDF TXT:ksi

Kuva1: - Esikatselu PDF-muodosta TXT-muunnokseen

Yllä olevassa esimerkissä käytetty PDF-mallitiedosto voidaan ladata osoitteesta marketing.pdf ja extracted.txt

Pura teksti PDF-tiedostosta cURL-komentojen avulla

REST-sovellusliittymiin pääsee helposti cURL-komennoilla, joten tässä osiossa aiomme tutkia vaihtoehtoa, kuinka voimme poimia tekstisisältöä PDF-tiedostosta cURL-komentojen avulla. Joten ennakkoedellytyksenä meidän on ensin luotava JWT-käyttöoikeustunnus (perustuu asiakkaan tunnistetietoihin) samalla kun suoritamme seuraavan komennon.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kun meillä on JWT-tunnus, meidän on suoritettava seuraava komento poimiaksemme kaikki PDF-dokumentin tekstiesiintymät.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Johtopäätös

Tässä artikkelissa on selitetty yksityiskohdat PDF-tiedoston muuntamisesta TXT:ksi Java Cloud SDK:n avulla. Samaan aikaan olemme myös tutkineet vaihtoehtoja tekstin purkamiseen PDF-tiedostosta cURL-komentojen avulla. Useiden PDF-sivujen välillä liikkumisen joustavuuden ansiosta saamme siis hallinnan siitä, mistä sisältö poimitaan. Suosittelemme, että tutustut tuotteeseen Dokumentaatio saadaksesi lisätietoja Java Cloud API:n tarjoamista muista jännittävistä ominaisuuksista. Koska kaikki Cloud SDK:mme on julkaistu MIT-lisenssillä, voit myös ladata täydellisen lähdekoodin GitHubista ja muokata sitä tarpeidesi mukaan. Jos sinulla on ongelmia, voit ottaa meihin yhteyttä saadaksesi nopean ratkaisun ilmaisen tuotetukifoorumin kautta.

Aiheeseen liittyvät artikkelit

Saat lisätietoja seuraavista linkeistä: