extract teks saka PDF

Ekstrak Teks saka PDF ing Jawa

Kita kabeh ngerti manawa file PDF minangka salah sawijining format digital sing paling penting lan akeh digunakake kanggo nampilake lan ngganti dokumen kanthi andal, ora gumantung saka piranti lunak, hardware, utawa sistem operasi. Nanging, ing sawetara skenario, kita bisa uga kasengsem njaluk kutipan saka file PDF sing gedhe. Utawa, kita bisa uga duwe syarat kanggo nyimpen PDF menyang Teks online. Dadi ing artikel iki, kita bakal njelajah rincian babagan cara ngembangake konverter PDF menyang Teks nggunakake Java REST API.

PDF Generator API

Entuk pengaruh kanggo ngasilake dokumen PDF nggunakake template utawa saka awal nggunakake REST API. Ing wektu sing padha, API uga ngidini sampeyan ngowahi uga ngowahi file PDF menyang format sing didhukung liyane. Sampeyan uga bisa njupuk keuntungan saka extract teks saka PDF, decrypting lan gabung file PDF nggunakake Java Cloud SDK. Saiki, kanggo nggunakake Aspose.PDF Cloud SDK kanggo Java, kita kudu nambah referensi ing aplikasi Java kanthi nyakup rincian ing ngisor iki ing pom.xml (proyek jinis mbangun maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Sawise instalasi, kita kudu nggawe akun gratis liwat Cloud Dashboard lan entuk kredensial klien pribadi.

Ekstrak Teks saka PDF nggunakake Java

Ayo njelajah rincian kanggo ngekstrak teks saka PDF nggunakake Java cloud SDK. Ing conto iki, kita bakal nggunakake input ing ngisor iki PdfWithTable.pdf berkas.

pdf kanggo teks ocr

Gambar 1: - File input kanggo ekstraksi PDF menyang Teks.

pdf kanggo teks ocr

Gambar 2: - Ekstrak teks saka pratinjau PDF

// kanggo conto liyane, bukak https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Entuk ClientID lan ClientSecret saka https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // nggawe conto PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // jeneng input dokumen PDF
    String name = "PdfWithTable.pdf";
		        
    // maca isi file PDF input
    File file = new File(name); 
    // upload PDF menyang panyimpenan maya
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koordinat pojok kiwa ngisor
    Double LLX = 500.0;
    // Y - koordinat pojok kiwa ngisor.
    Double LLY = 500.0;
    // X - koordinat pojok tengen ndhuwur.
    Double URX = 800.0;
    // Y - koordinat pojok tengen ndhuwur.
    Double URY = 800.0;
			       
    // nelpon API kanggo Ngonversi PDF menyang Teks
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Traverse liwat Kedadean Teks individu
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // nulis isi teks ing console
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Saiki ayo nyoba mangertos potongan kode ing ndhuwur:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Gawe conto PdfApi nalika menehi kredensial pribadi minangka argumen.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Waca PDF input nggunakake obyek File lan upload menyang panyimpenan maya nggunakake metode uploadFile(…) saka kelas PdfAPi. Elinga yen file kasebut diunggah nganggo jeneng sing digunakake ing metode uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Saiki nelpon metode getText (..) ing ngendi kita nemtokake jeneng file PDF input, dimensi persegi panjang ing kaca saka ngendi kita kudu ngekstrak isi teks lan, bali konten sing diekstrak menyang obyek TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Pungkasan, kanggo nyetak konten teks sing diekstrak, kita bakal ngulang kabeh TextOccurances lan nampilake ing konsol.

PDF menyang Teks nggunakake CURL Commands

Kajaba saka potongan kode Jawa, kita uga bisa nindakake operasi pdftotext nggunakake perintah cURL. Saiki, salah sawijining prasyarat kanggo pendekatan iki yaiku ngasilake token akses JWT (adhedhasar kredensial klien) nggunakake printah ing ngisor iki.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sawise JWT digawe, bukak printah ing ngisor iki kanggo ngekstrak teks saka file PDF sing wis kasedhiya ing panyimpenan awan.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Tip cepet

Nggolek PDF kanggo Teks gratis App! Coba gunakake [PDF Parser] (https://products.aspose.app/pdf/parser).

Panutup

Kesimpulane, ngekstrak teks saka file PDF nggunakake Jawa bisa dadi solusi sing kuat kanggo sing pengin ngotomatisasi kabutuhan pangolahan lan analisis data. Kanthi bantuan saka pandhuan iki, sampeyan saiki duwe dhasar sing kuat kanggo mbangun lan bisa kanthi gampang ngetrapake solusi basis Java dhewe kanggo ekstraksi teks saka dokumen PDF. Apa sampeyan pengin ngekstrak teks kanggo analisis data, machine learning, utawa tujuan liyane, Java nyedhiyakake platform sing fleksibel lan dipercaya kanggo kabutuhan sampeyan. Mula, coba katrampilan sing mentas dipikolehi!

Yen sampeyan kasengsem njelajah fitur-fitur menarik liyane sing ditawakake API, bukak Dokumentasi Produk. Pungkasan, yen sampeyan nemoni masalah nalika nggunakake API, utawa sampeyan duwe pitakon sing gegandhengan, hubungi kita liwat [Forum Dhukungan Produk] gratis 9.

Artikel sing gegandhengan

Mangga bukak link ing ngisor iki kanggo mangerteni sing luwih lengkap babagan: