onttrek teks uit PDF

Onttrek teks uit PDF in Java

Ons weet almal dat PDF-lêers een van die belangrikste en mees gebruikte digitale formate is wat gebruik word om dokumente betroubaar aan te bied en uit te ruil, onafhanklik van sagteware, hardeware of bedryfstelsel. In sommige scenario’s kan ons egter belangstel om ’n uittreksel uit groot PDF-lêers te kry. Of ons het dalk ’n vereiste om die PDF na teks aanlyn te stoor. So in hierdie artikel gaan ons die besonderhede verken oor hoe om PDF na teks-omskakelaar te ontwikkel met behulp van Java REST API.

PDF Generator API

Kry die hefboom om PDF-dokumente te genereer met behulp van sjablone of van nuuts af met ons REST API. Terselfdertyd stel die API jou ook in staat om die PDF-lêers te redigeer en te transformeer na ander ondersteunde formate. U kan ook die voordele benut om teks uit PDF te onttrek, PDF-lêers te dekripteer en saam te voeg met Java Cloud SDK. Nou, om die Aspose.PDF Wolk SDK vir Java te gebruik, moet ons die verwysing daarvan in ons Java-toepassing byvoeg deur die volgende besonderhede in pom.xml (maven bou tipe projek) in te sluit.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Na die installasie moet ons ’n gratis rekening oor Cloud Dashboard skep en persoonlike kliëntbewyse kry.

Onttrek teks uit PDF met Java

Kom ons ondersoek die besonderhede om teks uit PDF te onttrek met behulp van Java Cloud SDK. In hierdie voorbeeld gaan ons die volgende invoer gebruik PdfWithTable.pdf lêer.

pdf na teks ocr

Beeld 1: - Invoerlêer vir PDF na teks onttrekking.

pdf na teks ocr

Prent 2: - Onttrek teks uit PDF-voorskou

// vir meer voorbeelde, besoek asseblief https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Kry ClientID en ClientSecret vanaf https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // skep 'n instansie van PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // naam van invoer PDF-dokument
    String name = "PdfWithTable.pdf";
		        
    // lees die inhoud van insette PDF-lêer
    File file = new File(name); 
    // laai PDF na wolkberging op
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koördinaat van onderste - linkerhoek
    Double LLX = 500.0;
    // Y - koördinaat van onderste linkerhoek.
    Double LLY = 500.0;
    // X - koördinaat van regter boonste hoek.
    Double URX = 800.0;
    // Y - koördinaat van regter boonste hoek.
    Double URY = 800.0;
			       
    // oproep API om PDF na teks om te skakel
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Blaai deur individuele teksvoorkoms
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // skryf teksinhoud in die konsole
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Kom ons probeer nou die bogenoemde kodebrokkie verstaan:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Skep ’n instansie van PdfApi terwyl jy die persoonlike geloofsbriewe as argumente deurgee.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Lees die invoer-PDF met File-objek en laai dit op na wolkberging deur gebruik te maak van uploadFile(…)-metode van die PdfAPi-klas. Neem asseblief kennis dat die lêer opgelaai is met die naam wat gebruik word in die uploadFile-metode.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Roep nou getText(..) metode waar ons die naam van die invoer PDF-lêer spesifiseer, reghoekige afmetings op bladsy waaruit ons die tekstuele inhoud moet onttrek en die onttrekte inhoud terugstuur na TextRectsResponse-objek.

response.getTextOccurrences().getList().get(counter).getText()

Ten slotte, om die onttrekte teksinhoud te druk, gaan ons deur alle TextOccurances herhaal en dit in die konsole vertoon.

PDF na teks met behulp van cURL-opdragte

Afgesien van Java-kodebrokkie, kan ons ook pdftotext-bewerking uitvoer met behulp van cURL-opdragte. Nou, een van die voorvereistes vir hierdie benadering is om ’n JWT-toegangtoken te genereer (gebaseer op kliëntgeloofsbriewe) deur die volgende opdrag te gebruik.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sodra die JWT gegenereer is, voer asseblief die volgende opdrag uit om teks uit die PDF-lêer wat reeds in wolkberging beskikbaar is, te onttrek.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Vinnige wenk

Op soek na PDF na teks gratis toepassing! Probeer asseblief ons PDF-ontleder gebruik.

Slotopmerkings

Ten slotte, die onttrekking van teks uit PDF-lêers met Java kan ’n kragtige oplossing wees vir diegene wat hul dataverwerking en -ontledingsbehoeftes wil outomatiseer. Met die hulp van hierdie gids het jy nou ’n stewige fondament om op voort te bou en kan jy maklik jou eie Java-gebaseerde oplossing implementeer vir teksonttrekking uit PDF-dokumente. Of jy nou teks wil onttrek vir data-analise, masjienleer of enige ander doel, Java bied ’n buigsame en betroubare platform vir jou behoeftes. So gaan voort en stel jou nuutverworwe vaardighede op die proef!

As jy belangstel om ander opwindende kenmerke te verken wat deur die API aangebied word, verken asseblief die Produkdokumentasie. Laastens, as jy enige probleem ondervind tydens die gebruik van die API, of as jy enige verwante navraag het, kontak ons asseblief via gratis Product Support Forum.

verwante artikels

Besoek asseblief die volgende skakels om meer te wete te kom oor: