izdvajanje teksta iz PDF-a

Ekstrakt teksta iz PDF-a u Javi

Svi znamo da su PDF datoteke jedan od najvažnijih i najraširenijih digitalnih formata koji se koriste za pouzdano predstavljanje i razmjenu dokumenata, neovisno o softveru, hardveru ili operativnom sustavu. Međutim, u nekim scenarijima mogli bismo biti zainteresirani dobiti izvadak iz velikih PDF datoteka. Ili, možda imamo zahtjev za spremanje PDF-a u tekst na mreži. Stoga ćemo u ovom članku istražiti pojedinosti o tome kako razviti pretvarač PDF-a u tekst koristeći Java REST API.

PDF Generator API

Dobijte prednost za generiranje PDF dokumenata pomoću predložaka ili od nule pomoću našeg REST API-ja. U isto vrijeme, API vam također omogućuje uređivanje, kao i transformaciju PDF datoteka u druge podržane formate. Također možete iskoristiti prednosti izdvajanja teksta iz PDF-a, dešifriranja i spajanja PDF datoteka pomoću Java Cloud SDK-a. Sada, kako bismo koristili Aspose.PDF Cloud SDK za Javu, moramo dodati njegovu referencu u našu Java aplikaciju uključivanjem sljedećih detalja u pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Nakon instalacije moramo kreirati besplatni račun preko Cloud Dashboard i dobiti personalizirane vjerodajnice klijenta.

Izdvojite tekst iz PDF-a pomoću Jave

Istražimo pojedinosti o izdvajanju teksta iz PDF-a pomoću Java cloud SDK-a. U ovom primjeru upotrijebit ćemo sljedeći unos PdfWithTable.pdf datoteka.

pdf u tekstualni ocr

Slika 1: - Ulazna datoteka za ekstrakciju PDF-a u tekst.

pdf u tekstualni ocr

Slika 2: - Izdvojite tekst iz PDF pregleda

// za više primjera posjetite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Dobijte ClientID i ClientSecret s https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // stvoriti instancu PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // naziv ulaznog PDF dokumenta
    String name = "PdfWithTable.pdf";
		        
    // pročitati sadržaj ulazne PDF datoteke
    File file = new File(name); 
    // prenesite PDF u pohranu u oblaku
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koordinata donjeg lijevog kuta
    Double LLX = 500.0;
    // Y - koordinata donjeg lijevog kuta.
    Double LLY = 500.0;
    // X - koordinata gornjeg desnog kuta.
    Double URX = 800.0;
    // Y - koordinata gornjeg desnog kuta.
    Double URY = 800.0;
			       
    // pozovite API za pretvaranje PDF-a u tekst
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Prolazi kroz pojedinačnu pojavu teksta
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // pisanje tekstualnog sadržaja u konzoli
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Pokušajmo sada razumjeti gore navedeni isječak koda:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Stvorite instancu PdfApi dok prosljeđujete personalizirane vjerodajnice kao argumente.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Pročitajte ulazni PDF pomoću objekta File i prenesite ga u pohranu u oblaku pomoću metode uploadFile(…) klase PdfAPi. Imajte na umu da se datoteka učitava s nazivom korištenim u metodi uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Sada pozivamo getText(..) metodu gdje specificiramo naziv ulazne PDF datoteke, pravokutne dimenzije na stranici iz koje trebamo ekstrahirati tekstualni sadržaj i vraćamo ekstrahirani sadržaj TextRectsResponse objektu.

response.getTextOccurrences().getList().get(counter).getText()

Konačno, kako bismo ispisali ekstrahirani tekstualni sadržaj, proći ćemo kroz sve TextOccurances i prikazati ih u konzoli.

PDF u tekst pomoću cURL naredbi

Osim isječka Java koda, također možemo izvesti operaciju pdftotext pomoću cURL naredbi. Sada, jedan od preduvjeta za ovaj pristup je generiranje JWT pristupnog tokena (na temelju vjerodajnica klijenta) pomoću sljedeće naredbe.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Nakon što se JWT generira, izvršite sljedeću naredbu za izdvajanje teksta iz PDF datoteke koja je već dostupna u pohrani u oblaku.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Brzi savjet

Tražite besplatnu aplikaciju za PDF u tekst! Pokušajte upotrijebiti naš PDF Parser.

Zaključne napomene

Zaključno, izdvajanje teksta iz PDF datoteka pomoću Jave može biti moćno rješenje za one koji žele automatizirati svoje potrebe za obradom i analizom podataka. Uz pomoć ovog vodiča sada imate čvrstu osnovu na kojoj možete graditi i možete jednostavno implementirati vlastito rješenje temeljeno na Javi za izdvajanje teksta iz PDF dokumenata. Bilo da želite izdvojiti tekst za analizu podataka, strojno učenje ili bilo koju drugu svrhu, Java pruža fleksibilnu i pouzdanu platformu za vaše potrebe. Stoga samo naprijed i stavite svoje novostečene vještine na test!

Ako ste zainteresirani za istraživanje drugih uzbudljivih značajki koje nudi API, molimo istražite Dokumentaciju proizvoda. Na kraju, ako naiđete na bilo kakav problem tijekom korištenja API-ja ili imate bilo kakav povezan upit, slobodno nas kontaktirajte putem besplatnog Product Support Forum.

povezani članci

Posjetite sljedeće veze kako biste saznali više o: