File PDF biasane kalebu Teks, Gambar, Heading, Anotasi lan unsur liyane. Lan amarga format iki njaga tata letak dokumen ing platform (Desktop / Mobile etc), mula digunakake kanggo nuduhake informasi liwat internet. Nanging, kita bisa uga duwe syarat kanggo ngekstrak isi teks dokumen PDF kanggo diproses luwih lanjut. Dadi ing artikel iki, kita bakal ngrembug rincian babagan cara ngekstrak teks saka PDF nggunakake Java Cloud SDK. Sawise operasi rampung, output disimpen ing format TXT.
- API Konversi PDF menyang TXT
- PDF menyang Teks ing Jawa
- Ekstrak Teks saka PDF nggunakake Perintah cURL
API Konversi PDF menyang TXT
Aspose.PDF Cloud SDK for Java minangka solusi REST API sing menang penghargaan sing nawakake kemampuan kanggo nggawe, nyunting lan ngowahi PDF dadi JPG, XPS, HTML, DOCX lan macem-macem format sing didhukung. Saiki kanggo ngleksanakake kemampuan pangenalan teks pdf ing aplikasi Java, tambahake rincian ing ngisor iki ing pom.xml proyek jinis mbangun maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Sawise instalasi SDK, langkah penting sabanjure yaiku nggawe akun gratis ing Aspose Cloud. Dadi mangga mlebu nggunakake akun sing mentas digawe lan goleki / gawe ID Klien lan Rahasia Klien ing Cloud Dashboard. Rincian kasebut dibutuhake ing bagean sabanjure.
PDF menyang Teks ing Jawa
Tututi langkah-langkah ing ngisor iki kanggo nindakake konversi PDF menyang Teks nggunakake Java Cloud SDK. Dadi sawise konversi sukses, file TXT asil disimpen ing panyimpenan maya.
- Pisanan kita kudu nggawe obyek PdfApi nalika nyedhiyakake ClientID lan rahasia Klien minangka argumen
- Kapindho, muat file PDF input nggunakake conto File
- Unggah PDF input menyang panyimpenan awan nggunakake metode uploadFile(…).
- Nggawe variabel Integer sing nemtokake nomer kaca PDF kanggo ekstraksi teks lan kaping pindho sing nuduhake wilayah persegi dowo kaca sing kudu diekstrak konten Teks
- Pungkasane nelpon metode getPageText(…) kanggo njupuk konten teks saka input PDF
try
{
// Entuk ClientID lan ClientSecret saka https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// nggawe conto PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// jeneng input dokumen PDF
String inputFile = "marketing.pdf";
// maca isi file PDF input
File file = new File("//Users//"+inputFile);
// upload PDF menyang panyimpenan maya
pdfApi.uploadFile("input.pdf", file, null);
// kaca tartamtu saka PDF kanggo konversi
int pageNumber =1;
// X-koordinat pojok kiwa ngisor
Double LLX = 0.0;
// Y - koordinat pojok kiwa ngisor.
Double LLY = 0.0;
// X - koordinat pojok tengen ndhuwur.
Double URX = 800.0;
// Y - koordinat pojok tengen ndhuwur.
Double URY = 800.0;
// nelpon API kanggo Ngonversi PDF menyang Teks
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// asil conto file TXT
FileWriter myWriter = new FileWriter("filename.txt");
// Saiki ngliwati Kedadean Teks individu entuk asil cetak ing konsol
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// nulis isi teks menyang file TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// nutup pawang TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
File PDF sampel sing digunakake ing conto ing ndhuwur bisa diundhuh saka marketing.pdf lan extracted.txt
Ekstrak Teks saka PDF nggunakake Perintah cURL
API REST bisa gampang diakses liwat perintah cURL, mula ing bagean iki, kita bakal njelajah pilihan babagan carane bisa ngekstrak konten Teks saka PDF nggunakake perintah cURL. Dadi minangka prasyarat, kita kudu ngasilake token akses JWT (adhedhasar kredensial klien) nalika nglakokake perintah ing ngisor iki.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sawise kita duwe token JWT, kita kudu nglakokake perintah ing ngisor iki kanggo ngekstrak kabeh kedadeyan teks ing dokumen PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Kesimpulan
Artikel iki wis nerangake rincian babagan carane ngowahi PDF menyang TXT nggunakake Java Cloud SDK. Ing wektu sing padha, kita uga wis njelajah pilihan kanggo ngekstrak Teks saka PDF nggunakake perintah cURL. Dadi kanthi keluwesan nyabrang ing antarane pirang-pirang kaca PDF, kita entuk kontrol ing ngendi kanggo ngekstrak konten kasebut. Disaranake sampeyan njelajah produk Dokumentasi kanggo sinau luwih lengkap babagan fitur menarik liyane sing ditawakake Java Cloud API. Uga, amarga kabeh Cloud SDK kita diterbitake ing lisensi MIT, mula sampeyan bisa nimbang ngundhuh kode sumber lengkap saka GitHub lan ngowahi miturut kabutuhan sampeyan. Yen ana masalah, sampeyan bisa nimbang nyedhaki kita kanggo resolusi cepet liwat [forum dhukungan produk] gratis 9.
Artikel sing gegandhengan
Mangga bukak link ing ngisor iki kanggo mangerteni sing luwih lengkap babagan: