Extrait Text aus PDF

Extrait Text vum PDF op Java

Mir all wëssen datt PDF Dateien ee vun de wichtegsten a wäit benotzten digitale Formater sinn, déi benotzt gi fir Dokumenter zouverlässeg ze presentéieren an auszetauschen, onofhängeg vu Software, Hardware oder Betribssystem. Wéi och ëmmer, an e puer Szenarie kënne mir interesséiert sinn en Extrait aus grousse PDF Dateien ze kréien. Oder, mir kënnen e Fuerderung hunn den PDF op Text online ze späicheren. Also an dësem Artikel wäerte mir d’Detailer entdecken wéi Dir PDF an Text Konverter mat Java REST API entwéckelt.

PDF Generator API

Kritt de Heber fir PDF Dokumenter ze generéieren mat Templates oder vun Null mat eisem REST API. Zur selwechter Zäit erlaabt d’API Iech och z’änneren an d’PDF Dateien an aner [ënnerstëtzt Formater] ze transforméieren. Dir kënnt och d’Virdeeler huelen fir Text aus PDF ze extrahieren, PDF Dateien ze entschlësselen an ze fusionéieren mat Java Cloud SDK. Elo, fir d’Aspose.PDF Cloud SDK fir Java ze benotzen, musse mir seng Referenz an eiser Java Applikatioun addéieren andeems Dir déi folgend Detailer an pom.xml (Maven Build Type Project) enthält.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

No der Installatioun musse mir e gratis Kont erstellen iwwer Cloud Dashboard a personaliséiert Client Umeldungsinformatioune kréien.

Extrait Text aus PDF mat Java

Loosst eis d’Detailer entdecken fir Text aus PDF ze extrahieren mat Java Cloud SDK. An dësem Beispill wäerte mir de folgenden Input benotzen PdfWithTable.pdf Fichier.

pdf zu Text ocr

Bild 1: - Input Datei fir PDF an Text Extraktioun.

pdf zu Text ocr

Bild 2: - Extrait Text aus PDF Virschau

// fir méi Beispiller, besicht w.e.g. https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Kritt ClientID a ClientSecret vun https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // eng Instanz vun PdfApi erstellen
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // Numm vum Input PDF Dokument
    String name = "PdfWithTable.pdf";
		        
    // liesen den Inhalt vun der Input PDF Datei
    File file = new File(name); 
    // lued PDF op Cloud Storage
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-Koordinat vun ënnen - lénks Corner
    Double LLX = 500.0;
    // Y - Koordinate vum ënneschten lénksen Eck.
    Double LLY = 500.0;
    // X - Koordinate vun uewe-riets Corner.
    Double URX = 800.0;
    // Y - Koordinat vun uewe riets Eck.
    Double URY = 800.0;
			       
    // Call API fir PDF an Text ze konvertéieren
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Traverse duerch individuell Text Optriede
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // schreift Textinhalt an der Konsole
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Loosst eis elo probéieren den uewe spezifizéierte Code Snippet ze verstoen:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Erstellt eng Instanz vun PdfApi wärend Dir déi personaliséiert Umeldungsinformatiounen als Argumenter passéiert.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Liest den Input PDF mam Dateiobjekt a luet et op d’Cloudlagerung erop mat der UploadFile(…) Method vun der PdfAPi Klass. Notéiert w.e.g. datt d’Datei eropgeluede gëtt mam Numm deen an der UploadFile Method benotzt gëtt.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Elo ruffen getText (..) Method wou mir den Numm vun Input PDF Fichier uginn, véiereckege Dimensiounen op Säit aus deem musse mir den textuellen Inhalt Extrait an, Retour den extrahéierten Inhalt ze TextRectsResponse Objet.

response.getTextOccurrences().getList().get(counter).getText()

Schlussendlech, fir den extrahéierten Textinhalt ze drécken, gi mir duerch all TextOccurances iteréieren an se an der Konsole weisen.

PDF op Text mat cURL Kommandoen

Nieft dem Java Code Snippet kënne mir och pdftotext Operatioun mat cURL Kommandoen ausféieren. Elo, eng vun de Viraussetzunge fir dës Approche ass e JWT Zougang Token ze generéieren (baséiert op Client Umeldungsinformatiounen) mam folgenden Kommando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Wann de JWT generéiert ass, fuert w.e.g. de folgende Kommando aus fir Text aus der PDF Datei ze extrahieren déi scho verfügbar ass an der Cloud Storage.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Schnell Tipp

Sich no PDF zu Text gratis App! Probéiert w.e.g. eise [PDF Parser] (https://products.aspose.app/pdf/parser) ze benotzen.

Ofschlossbemierkungen

Als Conclusioun, Extrait vun Text aus PDF Dateien mat Java kann eng mächteg Léisung sinn fir déi, déi hir Dateveraarbechtung an Analysebedürfnisser automatiséieren. Mat der Hëllef vun dësem Guide hutt Dir elo e festen Fundament fir opzebauen a kënnt Är eege Java-baséiert Léisung fir Textextraktioun aus PDF Dokumenter einfach implementéieren. Egal ob Dir sicht Text ze extrahieren fir Datenanalyse, Maschinnléieren oder all aner Zweck, Java bitt eng flexibel an zouverlässeg Plattform fir Är Bedierfnesser. Also gitt vir a setzt Är nei erfuerene Fäegkeeten op den Test!

Wann Dir interesséiert sidd fir aner spannend Features ze entdecken, déi vun der API ugebuede ginn, entdeckt w.e.g. d’Produktdokumentatioun]11. Schlussendlech, wann Dir e Problem begéint wärend Dir d’API benotzt, oder Dir hutt eng ähnlech Ufro, w.e.g. kontaktéiert eis gratis iwwer Product Support Forum.

Zesummenhang Artikelen

Besicht w.e.g. déi folgend Linken fir méi iwwer ze léieren: