Pretvornik PDF v TXT

Kako pretvoriti PDF v TXT z Javo

Datoteka PDF je običajno sestavljena iz besedila, slike, naslova, opomb in drugih elementov. In ker ta oblika ohranja postavitev dokumenta na različnih platformah (namizni / mobilni itd.), se pogosto uporablja za izmenjavo informacij prek interneta. Vendar pa bomo morda morali izvleči besedilno vsebino dokumenta PDF za nadaljnjo obdelavo. Zato bomo v tem članku razpravljali o podrobnostih o tem, kako izvleči besedilo iz PDF-ja s pomočjo Java Cloud SDK. Ko je operacija končana, se izhod shrani v format TXT.

API za pretvorbo PDF v TXT

Aspose.PDF Cloud SDK za Javo je naša nagrajena rešitev REST API, ki ponuja zmožnosti za ustvarjanje, urejanje in pretvorbo PDF v JPG, XPS, HTML, DOCX in vrsto drugih podprtih formatov. Za implementacijo zmožnosti prepoznavanja besedila pdf v aplikaciji Java dodajte naslednje podrobnosti v pom.xml projekta vrste gradnje maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Po namestitvi SDK je naslednji pomemben korak ustvarjanje brezplačnega računa prek Aspose Cloud. Prijavite se torej z novo ustvarjenim računom in poiščite/ustvarite ID stranke in skrivnost stranke na Nadzorna plošča v oblaku. Te podrobnosti so obvezne v naslednjih razdelkih.

PDF v besedilo v Javi

Prosimo, sledite spodnjim korakom za izvedbo pretvorbe PDF v besedilo z Java Cloud SDK. Tako se po uspešni pretvorbi nastala datoteka TXT shrani v shrambo v oblaku.

  • Najprej moramo ustvariti objekt PdfApi, pri tem pa kot argumenta zagotoviti ClientID in Client Secret
  • Drugič, naložite vhodno datoteko PDF s primerkom datoteke
  • Prenesite vhodni PDF v shrambo v oblaku z metodo uploadFile(…).
  • Ustvari spremenljivko Integer, ki določa številko strani PDF-ja za ekstrakcijo besedila in dvojne primerke, ki označujejo pravokotno območje strani, iz katere moramo ekstrahirati besedilno vsebino
  • Končno pokličite metodo getPageText(…), da pridobite besedilno vsebino iz vhodnega PDF-ja
try
    {
    // Pridobite ClientID in ClientSecret na https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // ustvarite primerek PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // ime vhodnega dokumenta PDF
    String inputFile = "marketing.pdf";

    // preberite vsebino vhodne datoteke PDF
    File file = new File("//Users//"+inputFile);
	    
    // naloži PDF v shrambo v oblaku
    pdfApi.uploadFile("input.pdf", file, null);

    // določeno stran PDF-ja za pretvorbo
    int pageNumber =1;

    // X-koordinata spodnjega levega kota
    Double LLX = 0.0;
    // Y - koordinata spodnjega levega kota.
    Double LLY = 0.0;
    // X - koordinata zgornjega desnega kota.
    Double URX = 800.0;
    // Y - koordinata zgornjega desnega kota.
    Double URY = 800.0;
	       
    // klic API za pretvorbo PDF v besedilo
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // nastali primerek datoteke TXT
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Zdaj se pomaknite skozi posamezno pojavnost besedila in dobite rezultat tiskanja v konzoli
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // pisanje besedilne vsebine v datoteko TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // zaprite upravljalnik TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Pretvori PDF v TXT

Slika1: - Predogled pretvorbe PDF v TXT

Vzorčno datoteko PDF, uporabljeno v zgornjem primeru, lahko prenesete iz marketing.pdf in extracted.txt

Ekstrahirajte besedilo iz PDF-ja z ukazi cURL

Do API-jev REST je mogoče zlahka dostopati prek ukazov cURL, zato bomo v tem razdelku raziskali možnost, kako lahko izvlečemo besedilno vsebino iz PDF-ja z ukazi cURL. Kot predpogoj moramo torej med izvajanjem naslednjega ukaza najprej ustvariti žeton dostopa JWT (na podlagi poverilnic odjemalca).

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ko imamo žeton JWT, moramo izvesti naslednji ukaz, da ekstrahiramo vse pojavitve besedila v dokumentu PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Zaključek

V tem članku so razložene podrobnosti o tem, kako pretvoriti PDF v TXT z Java Cloud SDK. Hkrati smo raziskali tudi možnosti za ekstrahiranje besedila iz PDF z uporabo ukazov cURL. Torej s prilagodljivostjo premikanja med več stranmi PDF dobimo nadzor nad tem, kam izvleči vsebino. Toplo vam priporočamo, da raziščete izdelek Documentation, če želite izvedeti več o drugih razburljivih funkcijah, ki jih ponuja Java Cloud API. Poleg tega, ker so vsi naši SDK-ji v oblaku objavljeni pod licenco MIT, lahko razmislite o prenosu celotne izvorne kode iz GitHub in jo spremenite glede na svoje zahteve. V primeru kakršnih koli težav se lahko obrnete na nas za hitro rešitev prek brezplačnega foruma za podporo izdelkom.

povezani članki

Obiščite naslednje povezave, če želite izvedeti več o: