szöveg kibontása PDF-ből

Szöveg kibontása a PDF-ből Java nyelven

Mindannyian tudjuk, hogy a PDF fájlok az egyik legfontosabb és legszélesebb körben használt digitális formátum, amelyet a dokumentumok megbízható bemutatására és cseréjére használnak, függetlenül a szoftvertől, hardvertől vagy operációs rendszertől. Egyes forgatókönyvekben azonban érdekelhet bennünket, hogy kivonatot kapjunk nagy PDF-fájlokból. Vagy szükségünk lehet arra, hogy a PDF-fájlt online szöveggé mentsük. Tehát ebben a cikkben megvizsgáljuk a PDF-ből szöveggé konvertáló fejlesztésének részleteit a Java REST API segítségével.

PDF Generator API

Használja ki a PDF-dokumentumok létrehozását sablonok segítségével, vagy a semmiből a REST API segítségével. Ugyanakkor az API lehetővé teszi a PDF-fájlok szerkesztését és átalakítását más támogatott formátumokba. Kihasználhatja a PDF-ből szövegek kibontásának, a PDF-fájlok visszafejtésének és egyesítésének előnyeit is a Java Cloud SDK használatával. Most az Aspose.PDF Cloud SDK for Java használatához hozzá kell adnunk a hivatkozását a Java-alkalmazásunkhoz az alábbi részletekkel a pom.xml-ben (maven build típusú projekt).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

A telepítés után létre kell hoznunk egy ingyenes fiókot a Cloud Dashboard felett, és személyre szabott ügyfél-hitelesítő adatokat kell beszereznünk.

Szöveg kibontása PDF-ből Java segítségével

Fedezze fel a részleteket a PDF-ből a Java felhő SDK segítségével történő kinyeréséhez. Ebben a példában a következő bemenetet fogjuk használni PdfWithTable.pdf fájlt.

pdf szöveggé ocr

  1. kép: - Bemeneti fájl PDF-ből szövegkivonathoz.

pdf szöveggé ocr

  1. kép: - Szöveg kibontása a PDF előnézetből

// további példákért látogasson el a https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples oldalra.

try
    {
    // Szerezze be a ClientID-t és a ClientSecret-et a https://dashboard.aspose.cloud/ webhelyről
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // hozzon létre egy PdfApi példányt
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // a bemeneti PDF dokumentum neve
    String name = "PdfWithTable.pdf";
		        
    // olvassa el a bemeneti PDF-fájl tartalmát
    File file = new File(name); 
    // PDF feltöltése felhőtárhelyre
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // A bal alsó sarok X-koordinátája
    Double LLX = 500.0;
    // Y - a bal alsó sarok koordinátája.
    Double LLY = 500.0;
    // X - a jobb felső sarok koordinátája.
    Double URX = 800.0;
    // Y - a jobb felső sarok koordinátája.
    Double URY = 800.0;
			       
    // hívja az API-t a PDF szöveggé konvertálásához
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Bejárás az egyes szöveges előfordulásokon
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // szöveges tartalom írása a konzolon
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Most próbáljuk megérteni a fent megadott kódrészletet:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Hozzon létre egy PdfApi példányt, miközben argumentumként adja át a személyre szabott hitelesítő adatokat.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Olvassa el a bemeneti PDF-fájlt a File objektummal, és töltse fel a felhőtárhelyre a PdfAPi osztály uploadFile(…) metódusával. Kérjük, vegye figyelembe, hogy a fájl az uploadFile metódusban használt névvel van feltöltve.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Most hívjuk meg a getText(..) metódust, ahol megadjuk a bemeneti PDF fájl nevét, a téglalap méreteit azon az oldalon, ahonnan ki kell bontani a szöveges tartalmat, és visszaküldjük a kivont tartalmat a TextRectsResponse objektumnak.

response.getTextOccurrences().getList().get(counter).getText()

Végül, a kivont szöveges tartalom kinyomtatása érdekében az összes TextOccurance-t megismételjük, és megjelenítjük a konzolon.

PDF-ből szöveggé a cURL parancsokkal

A Java kódrészleten kívül pdftotext műveletet is végezhetünk cURL parancsokkal. Most ennek a megközelítésnek az egyik előfeltétele egy JWT hozzáférési jogkivonat létrehozása (az ügyfél hitelesítő adatai alapján) a következő paranccsal.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

A JWT létrehozása után hajtsa végre a következő parancsot, hogy kivonja a szöveget a felhőtárhelyen már elérhető PDF-fájlból.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Gyors tipp

PDF-ből szöveggé ingyenes alkalmazást keres! Kérjük, próbálja meg a [PDF-elemző] (https://products.aspose.app/pdf/parser) használatát.

Záró megjegyzések

Összefoglalva, a PDF-fájlokból a szöveg Java segítségével történő kinyerése hatékony megoldás lehet azok számára, akik automatizálni szeretnék adatfeldolgozási és elemzési igényeiket. Ennek az útmutatónak a segítségével most szilárd alapot kaphat, amelyre építhet, és könnyedén megvalósíthatja saját Java-alapú megoldását a PDF-dokumentumok szövegkinyerésére. Akár szöveget szeretne kinyerni adatelemzés, gépi tanulás vagy bármilyen más célból, a Java rugalmas és megbízható platformot biztosít az Ön igényeinek. Tehát menjen előre, és tegye próbára újonnan megszerzett képességeit!

Ha szeretné felfedezni az API által kínált egyéb izgalmas funkciókat, tekintse meg a Termékdokumentációt. Végül, ha bármilyen problémába ütközik az API használata során, vagy bármilyen kapcsolódó kérdése van, forduljon hozzánk bizalommal az ingyenes terméktámogatási fórumon.

kapcsolódó cikkek

Kérjük, látogasson el az alábbi linkekre, ha többet szeretne megtudni erről: