draga texta úr PDF

Dragðu út texta úr PDF í Java

Við vitum öll að PDF skrár eru eitt mikilvægasta og mest notaða stafræna sniðið sem notað er til að kynna og skiptast á skjölum á áreiðanlegan hátt, óháð hugbúnaði, vélbúnaði eða stýrikerfi. Hins vegar, í sumum tilfellum, gætum við haft áhuga á að fá útdrátt úr stórum PDF skjölum. Eða við gætum þurft að vista PDF í texta á netinu. Svo í þessari grein ætlum við að kanna upplýsingar um hvernig á að þróa PDF til textabreytir með Java REST API.

PDF Generator API

Fáðu styrk til að búa til PDF skjöl með sniðmátum eða frá grunni með REST API okkar. Á sama tíma gerir API þér einnig kleift að breyta og umbreyta PDF skjölunum í önnur studd snið. Þú getur líka nýtt þér kosti þess að draga texta úr PDF, afkóða og sameina PDF skrár með Java Cloud SDK. Nú, til að nota Aspose.PDF Cloud SDK fyrir Java, þurfum við að bæta við tilvísun þess í Java forritinu okkar með því að setja eftirfarandi upplýsingar inn í pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Eftir uppsetninguna þurfum við að búa til ókeypis reikning yfir Cloud Dashboard og fá persónulega persónuskilríki viðskiptavinarins.

Dragðu út texta úr PDF með Java

Við skulum kanna smáatriðin til að draga texta úr PDF með Java Cloud SDK. Í þessu dæmi ætlum við að nota eftirfarandi inntak PdfWithTable.pdf skrá.

Pdf að texta ocr

Mynd 1: - Inntaksskrá fyrir PDF í textaútdrátt.

Pdf að texta ocr

Mynd 2: - Dragðu út texta úr PDF forskoðun

// fyrir fleiri dæmi, vinsamlegast farðu á https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Fáðu ClientID og ClientSecret frá https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // búa til tilvik af PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // heiti PDF inntaksskjals
    String name = "PdfWithTable.pdf";
		        
    // lestu innihald inntaks PDF-skjals
    File file = new File(name); 
    // hlaða upp PDF í skýjageymslu
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-hnit neðra - vinstra horns
    Double LLX = 500.0;
    // Y - hnit neðra vinstra hornsins.
    Double LLY = 500.0;
    // X - hnit efra hægra hornsins.
    Double URX = 800.0;
    // Y - hnit efra hægra hornsins.
    Double URY = 800.0;
			       
    // kalla API til að umbreyta PDF í texta
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Farðu í gegnum einstaka textatilvik
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // skrifaðu textaefni í stjórnborðinu
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Nú skulum við reyna að skilja ofangreindan kóðabút:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Búðu til tilvik af PdfApi á meðan þú sendir persónulegu skilríkin sem rök.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Lestu innsláttinn PDF með File object og hladdu því upp í skýjageymslu með uploadFile(…) aðferðinni í PdfAPi bekknum. Vinsamlegast athugaðu að skránni er hlaðið upp með nafninu sem notað er í uploadFile aðferðinni.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Kallaðu nú getText(..) aðferðina þar sem við tilgreinum heiti PDF innsláttarskráar, rétthyrndar stærðir á síðu sem við þurfum að draga út textaefnið úr og skilum útdregnu efninu í TextRectsResponse hlutinn.

response.getTextOccurrences().getList().get(counter).getText()

Að lokum, til þess að prenta útdráttartextann, ætlum við að fara í gegnum öll TextOccurances og birta þau í stjórnborðinu.

PDF til texta með cURL skipunum

Fyrir utan Java kóðabút getum við einnig framkvæmt pdftotext aðgerð með því að nota cURL skipanir. Nú er ein af forsendum þessarar nálgun að búa til JWT aðgangslykil (byggt á skilríkjum viðskiptavinar) með því að nota eftirfarandi skipun.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Þegar JWT er búið til, vinsamlegast framkvæmdu eftirfarandi skipun til að draga texta úr PDF skjalinu sem þegar er til í skýgeymslu.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Fljótleg ráð

Ertu að leita að ókeypis forriti fyrir PDF til texta! Vinsamlegast reyndu að nota PDF Parser.

Lokaorð

Að lokum, að draga texta úr PDF skjölum með Java getur verið öflug lausn fyrir þá sem vilja gera sjálfvirkan gagnavinnslu og greiningarþarfir. Með hjálp þessarar handbókar hefurðu nú traustan grunn til að byggja á og getur auðveldlega innleitt þína eigin Java-undirstaða lausn fyrir textaútdrátt úr PDF skjölum. Hvort sem þú ert að leita að texta til gagnagreiningar, vélanáms eða í öðrum tilgangi, þá býður Java upp á sveigjanlegan og áreiðanlegan vettvang fyrir þarfir þínar. Svo farðu á undan og prófaðu nýfengna færni þína!

Ef þú hefur áhuga á að kanna aðra spennandi eiginleika sem API býður upp á, vinsamlegast skoðaðu Vöruskjölin. Að lokum, ef þú lendir í einhverjum vandamálum þegar þú notar API, eða þú hefur einhverjar tengdar fyrirspurnir, vinsamlegast ekki hika við að hafa samband við okkur í gegnum ókeypis Product Support Forum.

tengdar greinar

Vinsamlegast farðu á eftirfarandi tengla til að læra meira um: