PDF to TXT konverter

PDF konvertálása TXT-re Java segítségével

A PDF fájl általában szövegből, képből, címsorból, megjegyzésekből és egyéb elemekből áll. És mivel ez a formátum megőrzi a dokumentum elrendezését a különböző platformokon (asztali / mobil stb.), ezért széles körben használják az információk interneten keresztüli megosztására. Előfordulhat azonban, hogy további feldolgozás céljából ki kell bontakoznunk a PDF-dokumentum szöveges tartalmából. Tehát ebben a cikkben megvitatjuk, hogyan lehet szöveget kivonni a PDF-ből a Java Cloud SDK használatával. A művelet befejezése után a kimenet TXT formátumban kerül mentésre.

PDF-ből TXT-be konvertáló API

Az Aspose.PDF Cloud SDK for Java a díjnyertes REST API-megoldásunk, amely lehetőséget kínál PDF-ek létrehozására, szerkesztésére és konvertálására JPG, XPS, HTML, DOCX és számos más támogatott formátumba. A pdf-szövegfelismerési képességek Java alkalmazásban való megvalósítása érdekében kérjük, adja hozzá a következő részleteket a maven build típusú projekt pom.xml fájljához.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Az SDK telepítése után a következő fontos lépés egy ingyenes fiók létrehozása Aspose Cloud felett. Ezért kérjük, jelentkezzen be az újonnan létrehozott fiókkal, és keresse meg/hozza létre az ügyfél-azonosítót és az ügyféltitkot a Cloud Dashboard oldalon. Ezeket a részleteket a következő szakaszokban kell megadni.

PDF szöveggé Java nyelven

Kérjük, kövesse az alábbi lépéseket a PDF szöveggé konvertálásához a Java Cloud SDK használatával. Tehát a sikeres átalakítás után az eredményül kapott TXT-fájl felhőtárhelyre kerül mentésre.

  • Először létre kell hoznunk egy PdfApi objektumot, miközben argumentumként megadjuk a ClientID-t és a Client secret-et
  • Másodszor töltse be a bemeneti PDF-fájlt a Fájlpéldány segítségével
  • Töltse fel a bemeneti PDF-fájlt a felhőtárhelyre az uploadFile(…) módszerrel
  • Hozzon létre Integer változót, amely megadja a PDF oldalszámát a szövegkivonathoz, és dupla példányokat, amelyek jelzik az oldal téglalap alakú régióját, ahonnan ki kell bontani a szöveges tartalmat
  • Végül hívja meg a getPageText(…) metódust a szöveges tartalom lekéréséhez a bemeneti PDF-ből
try
    {
    // Szerezze be a ClientID-t és a ClientSecret-et a https://dashboard.aspose.cloud/ webhelyről
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // hozzon létre egy PdfApi példányt
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // a bemeneti PDF dokumentum neve
    String inputFile = "marketing.pdf";

    // olvassa el a bemeneti PDF-fájl tartalmát
    File file = new File("//Users//"+inputFile);
	    
    // PDF feltöltése felhőtárhelyre
    pdfApi.uploadFile("input.pdf", file, null);

    // a PDF egy adott oldala a konvertáláshoz
    int pageNumber =1;

    // A bal alsó sarok X-koordinátája
    Double LLX = 0.0;
    // Y - a bal alsó sarok koordinátája.
    Double LLY = 0.0;
    // X - a jobb felső sarok koordinátája.
    Double URX = 800.0;
    // Y - a jobb felső sarok koordinátája.
    Double URY = 800.0;
	       
    // hívja az API-t a PDF szöveggé konvertálásához
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // eredő TXT fájlpéldány
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Most léptesse át az egyes szöveges előfordulásokat, és kapja meg a nyomtatási eredményt a konzolon
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // szöveges tartalom írása TXT fájlba
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // zárja be a TXT kezelőt
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
PDF konvertálása TXT-re

  1. kép: – PDF-ből TXT-be konvertálás előnézete

A fenti példában használt PDF-minta letölthető a marketing.pdf és az extracted.txt oldalról.

Szöveg kibontása PDF-ből a cURL parancsokkal

A REST API-k könnyen elérhetők cURL-parancsokkal, ezért ebben a részben azt a lehetőséget vizsgáljuk meg, hogyan bonthatunk ki szöveges tartalmat PDF-ből cURL-parancsok segítségével. Tehát előfeltételként először létre kell hoznunk egy JWT hozzáférési tokent (az ügyfél hitelesítő adatai alapján), miközben végrehajtjuk a következő parancsot.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Miután megvan a JWT token, a következő parancsot kell végrehajtanunk a PDF-dokumentum összes szöveges előfordulásának kinyeréséhez.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Következtetés

Ez a cikk a PDF TXT formátumba konvertálásának részleteit ismerteti a Java Cloud SDK használatával. Ezzel egyidejűleg megvizsgáltuk a PDF-ből a szöveg cURL-parancsok segítségével történő kinyerésének lehetőségeit is. Így a több PDF-oldal közötti átjárás rugalmasságával szabályozhatóvá válik a tartalom kinyerésének helye. Erősen javasoljuk, hogy fedezze fel a Dokumentáció terméket, hogy többet tudjon meg a Java Cloud API által kínált egyéb izgalmas funkciókról. Továbbá, mivel minden Cloud SDK-nk MIT-licenc alatt van közzétéve, érdemes lehet letölteni a teljes forráskódot a GitHub oldalról, és az igényei szerint módosítani. Bármilyen probléma esetén megfontolhatja, hogy felkeressen minket a gyors megoldás érdekében az ingyenes terméktámogatási fórumon.

kapcsolódó cikkek

Kérjük, látogasson el az alábbi linkekre, ha többet szeretne megtudni erről: