izdvojiti tekst iz PDF-a

Ekstrakt teksta iz PDF-a u Javi

Svi znamo da su PDF datoteke jedan od najvažnijih i najčešće korištenih digitalnih formata koji se koriste za pouzdano predstavljanje i razmjenu dokumenata, neovisno o softveru, hardveru ili operativnom sistemu. Međutim, u nekim scenarijima mogli bismo biti zainteresirani da dobijemo izvod iz velikih PDF datoteka. Ili, možda imamo zahtjev za spremanje PDF-a u tekst na mreži. Dakle, u ovom članku ćemo istražiti detalje o tome kako razviti PDF u Text pretvarač koristeći Java REST API.

PDF Generator API

Dobijte prednost za generiranje PDF dokumenata pomoću predložaka ili od nule koristeći naš REST API. Istovremeno, API vam takođe omogućava da uređujete i transformišete PDF fajlove u druge podržane formate. Također možete iskoristiti prednosti izdvajanja teksta iz PDF-a, dešifriranja i spajanja PDF datoteka koristeći Java Cloud SDK. Sada, da bismo koristili Aspose.PDF Cloud SDK za Javu, moramo dodati njegovu referencu u našu Java aplikaciju uključivanjem sljedećih detalja u pom.xml (maven build tip projekta).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Nakon instalacije, potrebno je da kreiramo besplatan nalog preko Cloud Dashboard i dobijemo personalizovane klijentske akreditive.

Izvucite tekst iz PDF-a koristeći Javu

Hajde da istražimo detalje za izdvajanje teksta iz PDF-a koristeći Java cloud SDK. U ovom primjeru koristit ćemo sljedeći unos PdfWithTable.pdf fajl.

pdf u tekst ocr

Slika 1:- Ulazni fajl za ekstrakciju PDF-a u tekst.

pdf u tekst ocr

Slika 2: - Izvucite tekst iz PDF pregleda

// za više primjera, posjetite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Preuzmite ClientID i ClientSecret sa https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // kreirajte instancu PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // naziv ulaznog PDF dokumenta
    String name = "PdfWithTable.pdf";
		        
    // pročitajte sadržaj ulazne PDF datoteke
    File file = new File(name); 
    // otpremite PDF u pohranu u oblaku
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koordinata donjeg lijevog ugla
    Double LLX = 500.0;
    // Y - koordinata donjeg lijevog ugla.
    Double LLY = 500.0;
    // X - koordinata gornjeg desnog ugla.
    Double URX = 800.0;
    // Y - koordinata gornjeg desnog ugla.
    Double URY = 800.0;
			       
    // pozovite API za pretvaranje PDF-a u tekst
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Pređite kroz pojedinačnu pojavu teksta
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // pisati tekstualni sadržaj u konzoli
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Pokušajmo sada razumjeti gore navedeni isječak koda:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Kreirajte instancu PdfApi dok prosljeđujete personalizirane vjerodajnice kao argumente.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Pročitajte ulazni PDF pomoću objekta File i prenesite ga u skladište u oblaku koristeći uploadFile(…) metodu klase PdfAPi. Imajte na umu da se datoteka otprema s imenom korištenim u metodi uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Sada pozovite getText(..) metodu u kojoj specificiramo naziv ulazne PDF datoteke, pravokutne dimenzije na stranici iz koje trebamo izdvojiti tekstualni sadržaj i vratiti izvučeni sadržaj TextRectsResponse objektu.

response.getTextOccurrences().getList().get(counter).getText()

Konačno, da bismo ispisali ekstrahovani tekstualni sadržaj, proći ćemo kroz sve TextOccurance i prikazati ih u konzoli.

PDF u tekst pomoću cURL komandi

Osim isječka Java koda, možemo izvoditi i pdftotext operaciju pomoću cURL komandi. Sada, jedan od preduvjeta za ovaj pristup je generiranje JWT pristupnog tokena (zasnovanog na vjerodajnicama klijenta) koristeći sljedeću naredbu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kada se JWT generira, izvršite sljedeću naredbu za izdvajanje teksta iz PDF datoteke koja je već dostupna u pohrani u oblaku.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Brzi savjet

Tražite besplatnu aplikaciju iz PDF-a u tekst! Pokušajte koristiti naš PDF parser.

Zaključne napomene

Zaključno, izdvajanje teksta iz PDF datoteka pomoću Jave može biti moćno rješenje za one koji žele automatizirati svoje potrebe obrade i analize podataka. Uz pomoć ovog vodiča, sada imate čvrstu osnovu na kojoj možete graditi i lako možete implementirati vlastito rješenje zasnovano na Javi za ekstrakciju teksta iz PDF dokumenata. Bilo da želite da izdvojite tekst za analizu podataka, mašinsko učenje ili bilo koju drugu svrhu, Java pruža fleksibilnu i pouzdanu platformu za vaše potrebe. Stoga samo naprijed i testirajte svoje novostečene vještine!

Ako ste zainteresovani da istražite druge uzbudljive funkcije koje nudi API, istražite Dokumentaciju proizvoda. Na kraju, ako naiđete na bilo kakav problem dok koristite API, ili imate bilo kakav srodan upit, slobodno nas kontaktirajte putem besplatnog Foruma za podršku za proizvode.

povezani članci

Posjetite sljedeće linkove da saznate više o: