Kita semua tahu bahwa file PDF adalah salah satu format digital yang paling penting dan banyak digunakan untuk mempresentasikan dan bertukar dokumen secara andal, terlepas dari perangkat lunak, perangkat keras, atau sistem operasi. Namun, dalam beberapa skenario, kami mungkin tertarik untuk mendapatkan kutipan dari file PDF berukuran besar. Atau, kami mungkin memiliki persyaratan untuk menyimpan PDF ke Teks secara online. Jadi pada artikel ini, kita akan mengeksplorasi detail tentang cara mengembangkan konverter PDF ke Teks menggunakan Java REST API.
API Pembuat PDF
Dapatkan pengaruh untuk menghasilkan dokumen PDF menggunakan template atau dari awal menggunakan REST API kami. Pada saat yang sama, API juga memungkinkan Anda untuk mengedit serta mengubah file PDF ke [format yang didukung] lain6. Anda juga dapat memanfaatkan mengekstraksi teks dari PDF, mendekripsi, dan menggabungkan file PDF menggunakan Java Cloud SDK. Sekarang, untuk menggunakan Aspose.PDF Cloud SDK for Java, kita perlu menambahkan referensinya di aplikasi Java kita dengan menyertakan detail berikut di pom.xml (proyek tipe build maven).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Setelah penginstalan, kami perlu membuat akun gratis melalui Cloud Dashboard dan mendapatkan kredensial klien yang dipersonalisasi.
Ekstrak Teks dari PDF menggunakan Java
Mari jelajahi detailnya untuk mengekstrak teks dari PDF menggunakan Java cloud SDK. Dalam contoh ini, kita akan menggunakan input berikut PdfWithTable.pdf mengajukan.
// untuk contoh lainnya, silakan kunjungi https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Dapatkan ClientID dan ClientSecret dari https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// buat instance PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// nama dokumen PDF masukan
String name = "PdfWithTable.pdf";
// membaca konten input file PDF
File file = new File(name);
// unggah PDF ke penyimpanan cloud
pdfApi.uploadFile("input.pdf", file, null);
// Koordinat X dari pojok kiri bawah
Double LLX = 500.0;
// Y - koordinat sudut kiri bawah.
Double LLY = 500.0;
// X - koordinat sudut kanan atas.
Double URX = 800.0;
// Y - koordinat sudut kanan atas.
Double URY = 800.0;
// panggil API untuk Mengonversi PDF ke Teks
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Melintasi Kejadian Teks individual
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// tulis konten teks di konsol
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Sekarang mari kita coba memahami cuplikan kode yang ditentukan di atas:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Buat instance PdfApi sambil meneruskan kredensial yang dipersonalisasi sebagai argumen.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Baca input PDF menggunakan objek File dan unggah ke penyimpanan cloud menggunakan metode uploadFile(…) dari kelas PdfAPi. Harap diperhatikan bahwa file diunggah dengan nama yang digunakan dalam metode uploadFile.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Sekarang panggil metode getText(..) di mana kita menentukan nama file PDF input, dimensi persegi panjang pada halaman tempat kita perlu mengekstraksi konten tekstual dan, mengembalikan konten yang diekstraksi ke objek TextRectsResponse.
response.getTextOccurrences().getList().get(counter).getText()
Terakhir, untuk mencetak konten teks yang diekstrak, kita akan mengulangi semua TextOccurances dan menampilkannya di konsol.
PDF ke Teks menggunakan Perintah cURL
Selain potongan kode Java, kami juga dapat melakukan operasi pdftotext menggunakan perintah cURL. Sekarang, salah satu prasyarat untuk pendekatan ini adalah membuat token akses JWT (berdasarkan kredensial klien) menggunakan perintah berikut.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Setelah JWT dibuat, harap jalankan perintah berikut untuk mengekstrak teks dari file PDF yang sudah tersedia di penyimpanan cloud.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Tip Cepat
Mencari Aplikasi gratis PDF ke Teks! Coba gunakan Parser PDF kami.
Penutup
Kesimpulannya, mengekstraksi teks dari file PDF menggunakan Java dapat menjadi solusi ampuh bagi mereka yang ingin mengotomatiskan kebutuhan pemrosesan dan analisis data. Dengan bantuan panduan ini, Anda sekarang memiliki dasar yang kuat untuk dibangun dan dapat dengan mudah mengimplementasikan solusi berbasis Java Anda sendiri untuk ekstraksi teks dari dokumen PDF. Baik Anda ingin mengekstrak teks untuk analisis data, pembelajaran mesin, atau tujuan lainnya, Java menyediakan platform yang fleksibel dan andal untuk kebutuhan Anda. Jadi silakan dan uji keterampilan Anda yang baru diperoleh!
Jika Anda tertarik untuk menjelajahi fitur menarik lainnya yang ditawarkan oleh API, silakan jelajahi Dokumentasi Produk. Terakhir, jika Anda mengalami masalah saat menggunakan API, atau Anda memiliki pertanyaan terkait, jangan ragu untuk menghubungi kami melalui [Forum Dukungan Produk] gratis 9.
Artikel Terkait
Silakan kunjungi tautan berikut untuk mempelajari lebih lanjut tentang: