echdynnu testun o PDF

Detholiad Testun o PDF yn Java

Gwyddom i gyd mai ffeiliau PDF yw un o’r fformatau digidol pwysicaf a ddefnyddir fwyaf i gyflwyno a chyfnewid dogfennau yn ddibynadwy, yn annibynnol ar feddalwedd, caledwedd neu system weithredu. Fodd bynnag, mewn rhai sefyllfaoedd, efallai y byddai gennym ddiddordeb mewn cael dyfyniad o ffeiliau PDF mawr. Neu, efallai y bydd yn ofynnol i ni gadw’r PDF i Destun ar-lein. Felly yn yr erthygl hon, rydyn ni’n mynd i archwilio’r manylion ar sut i ddatblygu trawsnewidydd PDF i Testun gan ddefnyddio Java REST API.

PDF Generator API

Sicrhewch y trosoledd i gynhyrchu dogfennau PDF gan ddefnyddio templedi neu o’r dechrau gan ddefnyddio ein API REST. Ar yr un pryd, mae’r API hefyd yn eich galluogi i olygu yn ogystal â thrawsnewid y ffeiliau PDF i fformatau eraill. Gallwch hefyd fanteisio ar dynnu testun o PDF, dadgryptio a chyfuno ffeiliau PDF gan ddefnyddio Java Cloud SDK. Nawr, er mwyn defnyddio’r Aspose.PDF Cloud SDK ar gyfer Java, mae angen inni ychwanegu ei gyfeirnod yn ein cymhwysiad Java trwy gynnwys y manylion canlynol yn pom.xml (prosiect math adeiladu maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Ar ôl y gosodiad, mae angen i ni greu cyfrif am ddim dros Cloud Dashboard a chael tystlythyrau cleient personol.

Tynnu Testun o PDF gan ddefnyddio Java

Gadewch i ni archwilio’r manylion i dynnu testun o PDF gan ddefnyddio cwmwl Java SDK. Yn yr enghraifft hon, rydyn ni’n mynd i ddefnyddio’r mewnbwn canlynol PdfWithTable.pdf ffeil.

pdf i destun ocr

Delwedd 1:- Ffeil mewnbwn ar gyfer echdynnu PDF i Testun.

pdf i destun ocr

Delwedd 2:- Tynnu testun o rhagolwg PDF

// am ragor o enghreifftiau, ewch i https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Cael ClientID a ClientSecret o https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // creu enghraifft o PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // enw'r ddogfen PDF mewnbwn
    String name = "PdfWithTable.pdf";
		        
    // darllen cynnwys y ffeil PDF mewnbwn
    File file = new File(name); 
    // uwchlwytho PDF i storfa cwmwl
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-cyfesuryn o gornel isaf - chwith
    Double LLX = 500.0;
    // Y - cyfesuryn o gornel chwith isaf.
    Double LLY = 500.0;
    // X - cyfesuryn y gornel dde uchaf.
    Double URX = 800.0;
    // Y - cyfesuryn y gornel dde uchaf.
    Double URY = 800.0;
			       
    // ffoniwch API i Drosi PDF yn Destun
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Tramwyo trwy Achlysur Testun unigol
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // ysgrifennu cynnwys testun yn y consol
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Nawr, gadewch i ni geisio deall y pyt cod penodedig uchod:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Creu enghraifft o PdfApi wrth basio’r tystlythyrau personol fel dadleuon.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Darllenwch y PDF mewnbwn gan ddefnyddio File object a’i uwchlwytho i storfa cwmwl gan ddefnyddio dull uploadFile (…) o’r dosbarth PdfAPi. Sylwch fod y ffeil wedi’i llwytho i fyny gyda’r enw a ddefnyddir yn y dull uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Nawr ffoniwch ddull getText (..) lle rydym yn nodi enw’r ffeil PDF mewnbwn, dimensiynau hirsgwar ar y dudalen y mae angen i ni dynnu’r cynnwys testunol ohoni a, dychwelyd y cynnwys a echdynnwyd i wrthrych TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Yn olaf, er mwyn argraffu’r cynnwys testun a echdynnwyd, rydym yn mynd i ailadrodd trwy’r holl TextOccurances a’u harddangos yn y consol.

PDF i Destun gan ddefnyddio Gorchmynion cURL

Ar wahân i byt cod Java, gallwn hefyd berfformio gweithrediad pdftotext gan ddefnyddio gorchmynion cURL. Nawr, un o’r rhagofynion ar gyfer y dull hwn yw cynhyrchu tocyn mynediad JWT (yn seiliedig ar gymwysterau cleient) gan ddefnyddio’r gorchymyn canlynol.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Unwaith y bydd y JWT wedi’i gynhyrchu, gweithredwch y gorchymyn canlynol i dynnu testun o’r ffeil PDF sydd eisoes ar gael mewn storfa cwmwl.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Awgrym Cyflym

Chwilio am PDF i Decstio Ap rhad ac am ddim! Ceisiwch ddefnyddio ein [Parser PDF] (https://products.aspose.app/pdf/parser).

Sylwadau Clo

I gloi, gall echdynnu testun o ffeiliau PDF gan ddefnyddio Java fod yn ateb pwerus i’r rhai sydd am awtomeiddio eu hanghenion prosesu a dadansoddi data. Gyda chymorth y canllaw hwn, mae gennych bellach sylfaen gadarn i adeiladu arni a gallwch weithredu’ch datrysiad Java eich hun yn hawdd ar gyfer echdynnu testun o ddogfennau PDF. P’un a ydych am echdynnu testun ar gyfer dadansoddi data, dysgu peiriant, neu unrhyw ddiben arall, mae Java yn darparu llwyfan hyblyg a dibynadwy ar gyfer eich anghenion. Felly ewch ymlaen i roi eich sgiliau newydd ar brawf!

Os oes gennych ddiddordeb mewn archwilio nodweddion cyffrous eraill sy’n cael eu cynnig gan yr API, archwiliwch y Dogfennaeth Cynnyrch. Yn olaf, os byddwch yn dod ar draws unrhyw broblem wrth ddefnyddio’r API, neu os oes gennych unrhyw ymholiad cysylltiedig, mae croeso i chi gysylltu â ni trwy Fforwm Cymorth Cynnyrch am ddim.

Erthyglau Perthnasol

Ewch i’r dolenni canlynol i ddysgu mwy am: