extrage text din PDF

Extrageți text din PDF în Java

Știm cu toții că fișierele PDF sunt unul dintre cele mai importante și utilizate pe scară largă formate digitale utilizate pentru a prezenta și a schimba documente în mod fiabil, independent de software, hardware sau sistem de operare. Cu toate acestea, în unele scenarii, am putea fi interesați să obținem un extras din fișiere PDF mari. Sau, este posibil să avem o cerință de a salva online PDF-ul în text. Deci, în acest articol, vom explora detaliile despre cum să dezvoltați convertorul PDF în Text folosind API-ul REST Java.

PDF Generator API

Obțineți pârghia pentru a genera documente PDF folosind șabloane sau de la zero folosind API-ul nostru REST. În același timp, API-ul vă permite, de asemenea, să editați și să transformați fișierele PDF în alte formate acceptate. De asemenea, puteți beneficia de extragerea textului din PDF, decriptarea și îmbinarea fișierelor PDF folosind Java Cloud SDK. Acum, pentru a utiliza Aspose.PDF Cloud SDK pentru Java, trebuie să adăugăm referința acestuia în aplicația noastră Java, incluzând următoarele detalii în pom.xml (proiect de tip maven build).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

După instalare, trebuie să creăm un cont gratuit prin Cloud Dashboard și să obținem acreditări personalizate de client.

Extrageți text din PDF folosind Java

Să explorăm detaliile pentru a extrage text din PDF folosind SDK-ul Java cloud. În acest exemplu, vom folosi următoarea intrare PdfWithTable.pdf fişier.

pdf în text ocr

Imaginea 1: - Fișier de intrare pentru extragerea PDF în Text.

pdf în text ocr

Imaginea 2: - Extrageți text din previzualizarea PDF

// pentru mai multe exemple, vă rugăm să vizitați https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Obțineți ClientID și ClientSecret de pe https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // creați o instanță de PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // numele documentului PDF de intrare
    String name = "PdfWithTable.pdf";
		        
    // citiți conținutul fișierului PDF de intrare
    File file = new File(name); 
    // încărcați PDF în stocarea în cloud
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Coordonata X a colțului din stânga jos
    Double LLX = 500.0;
    // Y - coordonata colțului din stânga jos.
    Double LLY = 500.0;
    // X - coordonata colțului din dreapta sus.
    Double URX = 800.0;
    // Y - coordonata colțului din dreapta sus.
    Double URY = 800.0;
			       
    // apelați API pentru a converti PDF în text
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Traversați prin apariția textului individual
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // scrie conținut text în consolă
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Acum să încercăm să înțelegem fragmentul de cod specificat mai sus:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Creați o instanță de PdfApi în timp ce treceți acreditările personalizate ca argumente.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Citiți PDF-ul de intrare folosind obiectul Fișier și încărcați-l în stocarea în cloud folosind metoda uploadFile(…) din clasa PdfAPi. Vă rugăm să rețineți că fișierul este încărcat cu numele folosit în metoda uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Acum apelăm metoda getText(..) unde specificăm numele fișierului PDF de intrare, dimensiunile dreptunghiulare ale paginii din care trebuie să extragem conținutul textual și, returnăm conținutul extras la obiectul TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

În cele din urmă, pentru a imprima conținutul text extras, vom itera toate TextOccurances și le vom afișa în consolă.

PDF în text folosind comenzile cURL

În afară de fragmentul de cod Java, putem efectua și operațiunile pdftotext folosind comenzile cURL. Acum, una dintre condițiile prealabile pentru această abordare este generarea unui token de acces JWT (pe baza acreditărilor clientului) folosind următoarea comandă.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Odată ce JWT este generat, vă rugăm să executați următoarea comandă pentru a extrage text din fișierul PDF deja disponibil în stocarea în cloud.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Sfat rapid

Cauți aplicația gratuită PDF to Text! Vă rugăm să încercați să utilizați PDF Parser.

Concluzii finale

În concluzie, extragerea textului din fișiere PDF folosind Java poate fi o soluție puternică pentru cei care doresc să-și automatizeze nevoile de procesare și analiză a datelor. Cu ajutorul acestui ghid, aveți acum o bază solidă pe care să vă construiți și vă puteți implementa cu ușurință propria soluție bazată pe Java pentru extragerea de text din documente PDF. Indiferent dacă doriți să extrageți text pentru analiza datelor, învățare automată sau orice alt scop, Java oferă o platformă flexibilă și fiabilă pentru nevoile dvs. Așa că mergeți mai departe și puneți-vă la încercare abilitățile nou dobândite!

Dacă sunteți interesat să explorați alte funcții interesante oferite de API, vă rugăm să explorați Documentația produsului. În cele din urmă, dacă întâmpinați vreo problemă în timp ce utilizați API-ul sau aveți orice întrebare legată, vă rugăm să nu ezitați să ne contactați prin intermediul gratuit Forumul de asistență pentru produse.

Articole similare

Vă rugăm să vizitați următoarele link-uri pentru a afla mai multe despre: