File PDF biasanya terdiri dari Teks, Gambar, Tajuk, Anotasi, dan elemen lainnya. Dan karena format ini mempertahankan tata letak dokumen di seluruh platform (Desktop / Seluler dll), format ini banyak digunakan untuk berbagi informasi melalui internet. Namun, kami mungkin memiliki persyaratan untuk mengekstrak konten tekstual dari dokumen PDF untuk diproses lebih lanjut. Nah pada artikel kali ini kita akan membahas detail cara mengekstrak teks dari PDF menggunakan Java Cloud SDK. Setelah operasi selesai, hasilnya disimpan dalam format TXT.
API Konversi PDF ke TXT
Aspose.PDF Cloud SDK for Java adalah solusi REST API pemenang penghargaan kami yang menawarkan kemampuan untuk membuat, mengedit, dan mengonversi PDF ke JPG, XPS, HTML, DOCX, dan berbagai [format yang didukung] lainnya]12. Sekarang untuk mengimplementasikan kemampuan pengenalan teks pdf di aplikasi Java, harap tambahkan detail berikut di pom.xml dari proyek tipe maven build.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Setelah penginstalan SDK, langkah penting berikutnya adalah membuat akun gratis melalui Aspose Cloud. Jadi silakan login menggunakan akun yang baru dibuat dan cari/buat Client ID dan Client Secret di Cloud Dashboard. Rincian ini diperlukan di bagian selanjutnya.
PDF ke Teks di Jawa
Silakan ikuti langkah-langkah yang diberikan di bawah ini untuk melakukan konversi PDF ke Teks menggunakan Java Cloud SDK. Jadi setelah konversi berhasil, file TXT yang dihasilkan disimpan di penyimpanan cloud.
- Pertama kita perlu membuat objek PdfApi sambil memberikan ClientID dan rahasia Klien sebagai argumen
- Kedua, muat file PDF input menggunakan File instance
- Unggah PDF input ke penyimpanan cloud menggunakan metode uploadFile(…).
- Buat variabel Integer yang menentukan nomor halaman PDF untuk ekstraksi teks dan Contoh ganda yang menunjukkan wilayah persegi panjang dari mana kita perlu mengekstrak konten Tekstual
- Terakhir, panggil metode getPageText(…) untuk mengambil konten tekstual dari input PDF
try
{
// Dapatkan ClientID dan ClientSecret dari https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// buat instance PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// nama dokumen PDF masukan
String inputFile = "marketing.pdf";
// membaca konten input file PDF
File file = new File("//Users//"+inputFile);
// unggah PDF ke penyimpanan cloud
pdfApi.uploadFile("input.pdf", file, null);
// halaman tertentu dari PDF untuk konversi
int pageNumber =1;
// Koordinat X dari pojok kiri bawah
Double LLX = 0.0;
// Y - koordinat sudut kiri bawah.
Double LLY = 0.0;
// X - koordinat sudut kanan atas.
Double URX = 800.0;
// Y - koordinat sudut kanan atas.
Double URY = 800.0;
// panggil API untuk Mengonversi PDF ke Teks
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// contoh file TXT yang dihasilkan
FileWriter myWriter = new FileWriter("filename.txt");
// Sekarang telusuri Kejadian Teks individual, dapatkan hasil cetak di konsol
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// tulis konten teks ke file TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// tutup penangan TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Contoh file PDF yang digunakan dalam contoh di atas dapat diunduh dari marketing.pdf dan extracted.txt
Ekstrak Teks dari PDF menggunakan Perintah cURL
API REST dapat dengan mudah diakses melalui perintah cURL, jadi di bagian ini, kita akan menjelajahi opsi bagaimana kita dapat mengekstrak konten Tekstual dari PDF menggunakan perintah cURL. Jadi sebagai prasyarat, pertama-tama kita perlu membuat token akses JWT (berdasarkan kredensial klien) saat menjalankan perintah berikut.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Setelah kita memiliki token JWT, kita perlu menjalankan perintah berikut untuk mengekstrak semua kemunculan teks dalam dokumen PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Kesimpulan
Artikel ini telah menjelaskan detail cara mengonversi PDF ke TXT menggunakan Java Cloud SDK. Pada saat yang sama, kami juga menjelajahi opsi untuk mengekstrak Teks dari PDF menggunakan perintah cURL. Jadi dengan fleksibilitas melintasi beberapa halaman PDF, kami mendapatkan kontrol di mana untuk mengekstrak konten. Kami sangat menyarankan Anda untuk menjelajahi produk Documentation untuk mempelajari lebih lanjut tentang fitur menarik lainnya yang ditawarkan oleh Java Cloud API. Selain itu, karena semua Cloud SDK kami diterbitkan di bawah lisensi MIT, jadi Anda dapat mempertimbangkan untuk mengunduh kode sumber lengkap dari GitHub dan memodifikasinya sesuai kebutuhan Anda. Jika ada masalah, Anda dapat mempertimbangkan untuk menghubungi kami untuk penyelesaian cepat melalui forum dukungan produk gratis.
Artikel Terkait
Silakan kunjungi tautan berikut untuk mempelajari lebih lanjut tentang: