Konverter PDF menyang TXT

Carane ngowahi PDF menyang TXT nggunakake Java

File PDF biasane kalebu Teks, Gambar, Heading, Anotasi lan unsur liyane. Lan amarga format iki njaga tata letak dokumen ing platform (Desktop / Mobile etc), mula digunakake kanggo nuduhake informasi liwat internet. Nanging, kita bisa uga duwe syarat kanggo ngekstrak isi teks dokumen PDF kanggo diproses luwih lanjut. Dadi ing artikel iki, kita bakal ngrembug rincian babagan cara ngekstrak teks saka PDF nggunakake Java Cloud SDK. Sawise operasi rampung, output disimpen ing format TXT.

API Konversi PDF menyang TXT

Aspose.PDF Cloud SDK for Java minangka solusi REST API sing menang penghargaan sing nawakake kemampuan kanggo nggawe, nyunting lan ngowahi PDF dadi JPG, XPS, HTML, DOCX lan macem-macem format sing didhukung. Saiki kanggo ngleksanakake kemampuan pangenalan teks pdf ing aplikasi Java, tambahake rincian ing ngisor iki ing pom.xml proyek jinis mbangun maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Sawise instalasi SDK, langkah penting sabanjure yaiku nggawe akun gratis ing Aspose Cloud. Dadi mangga mlebu nggunakake akun sing mentas digawe lan goleki / gawe ID Klien lan Rahasia Klien ing Cloud Dashboard. Rincian kasebut dibutuhake ing bagean sabanjure.

PDF menyang Teks ing Jawa

Tututi langkah-langkah ing ngisor iki kanggo nindakake konversi PDF menyang Teks nggunakake Java Cloud SDK. Dadi sawise konversi sukses, file TXT asil disimpen ing panyimpenan maya.

  • Pisanan kita kudu nggawe obyek PdfApi nalika nyedhiyakake ClientID lan rahasia Klien minangka argumen
  • Kapindho, muat file PDF input nggunakake conto File
  • Unggah PDF input menyang panyimpenan awan nggunakake metode uploadFile(…).
  • Nggawe variabel Integer sing nemtokake nomer kaca PDF kanggo ekstraksi teks lan kaping pindho sing nuduhake wilayah persegi dowo kaca sing kudu diekstrak konten Teks
  • Pungkasane nelpon metode getPageText(…) kanggo njupuk konten teks saka input PDF
try
    {
    // Entuk ClientID lan ClientSecret saka https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // nggawe conto PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // jeneng input dokumen PDF
    String inputFile = "marketing.pdf";

    // maca isi file PDF input
    File file = new File("//Users//"+inputFile);
	    
    // upload PDF menyang panyimpenan maya
    pdfApi.uploadFile("input.pdf", file, null);

    // kaca tartamtu saka PDF kanggo konversi
    int pageNumber =1;

    // X-koordinat pojok kiwa ngisor
    Double LLX = 0.0;
    // Y - koordinat pojok kiwa ngisor.
    Double LLY = 0.0;
    // X - koordinat pojok tengen ndhuwur.
    Double URX = 800.0;
    // Y - koordinat pojok tengen ndhuwur.
    Double URY = 800.0;
	       
    // nelpon API kanggo Ngonversi PDF menyang Teks
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // asil conto file TXT
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Saiki ngliwati Kedadean Teks individu entuk asil cetak ing konsol
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // nulis isi teks menyang file TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // nutup pawang TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Ngonversi PDF menyang TXT

Gambar 1: - Pratinjau Konversi PDF menyang TXT

File PDF sampel sing digunakake ing conto ing ndhuwur bisa diundhuh saka marketing.pdf lan extracted.txt

Ekstrak Teks saka PDF nggunakake Perintah cURL

API REST bisa gampang diakses liwat perintah cURL, mula ing bagean iki, kita bakal njelajah pilihan babagan carane bisa ngekstrak konten Teks saka PDF nggunakake perintah cURL. Dadi minangka prasyarat, kita kudu ngasilake token akses JWT (adhedhasar kredensial klien) nalika nglakokake perintah ing ngisor iki.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sawise kita duwe token JWT, kita kudu nglakokake perintah ing ngisor iki kanggo ngekstrak kabeh kedadeyan teks ing dokumen PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Kesimpulan

Artikel iki wis nerangake rincian babagan carane ngowahi PDF menyang TXT nggunakake Java Cloud SDK. Ing wektu sing padha, kita uga wis njelajah pilihan kanggo ngekstrak Teks saka PDF nggunakake perintah cURL. Dadi kanthi keluwesan nyabrang ing antarane pirang-pirang kaca PDF, kita entuk kontrol ing ngendi kanggo ngekstrak konten kasebut. Disaranake sampeyan njelajah produk Dokumentasi kanggo sinau luwih lengkap babagan fitur menarik liyane sing ditawakake Java Cloud API. Uga, amarga kabeh Cloud SDK kita diterbitake ing lisensi MIT, mula sampeyan bisa nimbang ngundhuh kode sumber lengkap saka GitHub lan ngowahi miturut kabutuhan sampeyan. Yen ana masalah, sampeyan bisa nimbang nyedhaki kita kanggo resolusi cepet liwat [forum dhukungan produk] gratis 9.

Artikel sing gegandhengan

Mangga bukak link ing ngisor iki kanggo mangerteni sing luwih lengkap babagan: