ištraukite tekstą iš pdf

Ištraukite tekstą iš PDF „Java“.

Visi žinome, kad PDF failai yra vienas iš svarbiausių ir plačiausiai naudojamų skaitmeninių formatų, naudojamų norint patikimai pateikti ir keistis dokumentais, nepriklausomai nuo programinės įrangos, aparatinės įrangos ar operacinės sistemos. Tačiau kai kuriais atvejais mums gali būti įdomu gauti ištrauką iš didelių PDF failų. Arba galime reikalauti PDF failą išsaugoti kaip tekstą internete. Taigi šiame straipsnyje mes išnagrinėsime išsamią informaciją, kaip sukurti PDF į tekstą keitiklį naudojant Java REST API.

PDF generatoriaus API

Gaukite svertą, kad sukurtumėte PDF dokumentus naudodami šablonus arba nuo nulio naudodami mūsų REST API. Tuo pačiu metu API taip pat leidžia redaguoti ir transformuoti PDF failus į kitus palaikomus formatus. Taip pat galite pasinaudoti teksto ištraukimo iš PDF, PDF failų iššifravimo ir sujungimo pranašumais naudodami Java Cloud SDK. Dabar, norėdami naudoti Aspose.PDF Cloud SDK for Java, turime įtraukti jo nuorodą į savo Java programą įtraukdami toliau nurodytą informaciją į pom.xml (maven build tipo projektas).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Įdiegę turime sukurti nemokamą paskyrą per Cloud Dashboard ir gauti suasmenintus kliento kredencialus.

Ištraukite tekstą iš PDF naudodami Java

Išnagrinėkime išsamią informaciją, kad iš PDF ištrauktume tekstą naudodami „Java“ debesies SDK. Šiame pavyzdyje naudosime šią įvestį PdfWithTable.pdf failą.

pdf į tekstą ocr

1 vaizdas: įvesties failas, skirtas iš PDF į tekstą išgauti.

pdf į tekstą ocr

2 vaizdas: ištraukite tekstą iš PDF peržiūros

// Norėdami gauti daugiau pavyzdžių, apsilankykite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Gaukite ClientID ir ClientSecret iš https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // sukurti PdfApi egzempliorių
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // įvesties PDF dokumento pavadinimas
    String name = "PdfWithTable.pdf";
		        
    // skaityti įvesties PDF failo turinį
    File file = new File(name); 
    // įkelti PDF į debesies saugyklą
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Apatinio kairiojo kampo X koordinatė
    Double LLX = 500.0;
    // Y - apatinio kairiojo kampo koordinatė.
    Double LLY = 500.0;
    // X - viršutinio dešiniojo kampo koordinatė.
    Double URX = 800.0;
    // Y - viršutinio dešiniojo kampo koordinatė.
    Double URY = 800.0;
			       
    // skambinkite API norėdami konvertuoti PDF į tekstą
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Pereikite per atskirą teksto įvykį
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // rašyti tekstinį turinį konsolėje
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Dabar pabandykime suprasti aukščiau nurodytą kodo fragmentą:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Sukurkite PdfApi egzempliorių perduodant asmeninius kredencialus kaip argumentus.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Perskaitykite įvesties PDF failą naudodami objektą „File“ ir įkelkite jį į saugyklą debesyje naudodami „PdfAPi“ klasės metodą „uploadFile“ (…). Atminkite, kad failas įkeliamas tokiu pavadinimu, kuris naudojamas įkėlimo failo metode.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Dabar iškvieskite getText(..) metodą, kuriame nurodome įvesties PDF failo pavadinimą, stačiakampius matmenis puslapyje, iš kurio turime išgauti tekstinį turinį ir grąžinti ištrauktą turinį į TextRectsResponse objektą.

response.getTextOccurrences().getList().get(counter).getText()

Galiausiai, norėdami atspausdinti išgautą teksto turinį, kartosime visas TextOccurances ir parodysime juos konsolėje.

PDF į tekstą naudojant cURL komandas

Be Java kodo fragmento, taip pat galime atlikti pdftotext operaciją naudodami cURL komandas. Dabar viena iš būtinų šio metodo sąlygų yra sugeneruoti JWT prieigos raktą (pagal kliento kredencialus) naudojant šią komandą.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sugeneravę JWT, vykdykite šią komandą, kad ištrauktumėte tekstą iš debesies saugykloje jau esančio PDF failo.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Greitas patarimas

Ieškote nemokamos programos iš PDF į tekstą! Pabandykite naudoti mūsų [PDF analizatorių] (https://products.aspose.app/pdf/parser).

Baigiamosios pastabos

Apibendrinant galima pasakyti, kad teksto ištraukimas iš PDF failų naudojant Java gali būti galingas sprendimas tiems, kurie nori automatizuoti savo duomenų apdorojimo ir analizės poreikius. Naudodamiesi šiuo vadovu dabar turite tvirtą pagrindą, kuriuo galite remtis, ir galite lengvai įdiegti savo Java pagrįstą sprendimą teksto ištraukimui iš PDF dokumentų. Nesvarbu, ar norite išgauti tekstą duomenų analizei, mašininiam mokymuisi ar bet kokiam kitam tikslui, „Java“ yra lanksti ir patikima platforma jūsų poreikiams. Taigi pirmyn ir išbandykite savo naujai įgytus įgūdžius!

Jei jus domina kitos įdomios API siūlomos funkcijos, peržiūrėkite Produkto dokumentaciją. Galiausiai, jei susiduriate su kokia nors problema naudojant API arba turite kokių nors susijusių užklausų, susisiekite su mumis per nemokamą Produktų palaikymo forumą.

susiję straipsniai

Norėdami sužinoti daugiau apie tai, apsilankykite šiose nuorodose: