Bir PDF dosyası genellikle Metin, Resim, Başlık, Ek Açıklamalar ve diğer öğelerden oluşur. Ve bu biçim, platformlar arasında (Masaüstü / Mobil vb.) belge düzenini koruduğundan, internet üzerinden bilgi paylaşmak için yaygın olarak kullanılır. Ancak, daha sonraki işlemler için PDF belgesinin metin içeriğini çıkarma gereksinimimiz olabilir. Bu nedenle, bu makalede, Java Cloud SDK kullanarak PDF’den nasıl metin çıkarılacağına ilişkin ayrıntıları tartışacağız. İşlem tamamlandıktan sonra çıktı TXT biçiminde kaydedilir.
- PDF’den TXT’ye Dönüştürme API’sı
- Java’da PDF’den Metne Dönüştürme
- CURL Komutlarını Kullanarak PDF’den Metin Çıkarın
PDF’den TXT’ye Dönüştürme API’sı
Aspose.PDF Cloud SDK for Java, PDF oluşturma, düzenleme ve JPG, XPS, HTML, DOCX ve çeşitli diğer desteklenen biçimlere dönüştürme yetenekleri sunan ödüllü REST API çözümümüzdür. Şimdi pdf metin tanıma yeteneklerini Java uygulamasında uygulamak için, lütfen maven yapı türü projesinin pom.xml dosyasına aşağıdaki ayrıntıları ekleyin.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
SDK kurulumundan sonraki önemli adım, Aspose Cloud üzerinden ücretsiz bir hesap oluşturmaktır. Bu nedenle, lütfen yeni oluşturulan hesabı kullanarak oturum açın ve Cloud Dashboard’ta Müşteri Kimliği ve Müşteri Sırrı arayın/oluşturun. Bu ayrıntılar sonraki bölümlerde gereklidir.
Java’da PDF’den Metne Dönüştürme
Java Cloud SDK’yı kullanarak PDF’den Metne dönüştürmeyi gerçekleştirmek için lütfen aşağıdaki adımları izleyin. Böylece, başarılı bir dönüştürmeden sonra ortaya çıkan TXT dosyası bulut depolama alanına kaydedilir.
- Öncelikle, bağımsız değişken olarak ClientID ve Client secret’ı sağlarken bir PdfApi nesnesi oluşturmamız gerekiyor.
- İkinci olarak, giriş PDF dosyasını Dosya örneğini kullanarak yükleyin
- Giriş PDF’sini uploadFile(…) yöntemini kullanarak bulut depolamaya yükleyin
- Metin ayıklama için PDF’nin sayfa numarasını belirten Tamsayı değişkeni ve Metin içeriğini çıkarmamız gereken sayfanın dikdörtgen bölgesini gösteren Double örnekleri oluşturun
- Son olarak, giriş PDF’sinden metin içeriği almak için getPageText(…) yöntemini çağırın
try
{
// https://dashboard.aspose.cloud/ adresinden ClientID ve ClientSecret'i edinin
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// bir PdfApi örneği oluştur
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// giriş PDF belgesinin adı
String inputFile = "marketing.pdf";
// giriş PDF dosyasının içeriğini oku
File file = new File("//Users//"+inputFile);
// PDF'yi bulut depolamaya yükleyin
pdfApi.uploadFile("input.pdf", file, null);
// dönüştürme için belirli bir PDF sayfası
int pageNumber =1;
// Alt - sol köşenin X koordinatı
Double LLX = 0.0;
// Y - sol alt köşenin koordinatı.
Double LLY = 0.0;
// X - sağ üst köşenin koordinatı.
Double URX = 800.0;
// Y - sağ üst köşenin koordinatı.
Double URY = 800.0;
// PDF'yi Metne Dönüştürmek için API'yi çağırın
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// sonuç TXT dosyası örneği
FileWriter myWriter = new FileWriter("filename.txt");
// Şimdi tek tek Metin Oluşumunda gezinin, konsolda yazdırma sonucunu alın
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// metin içeriğini TXT dosyasına yaz
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// TXT işleyicisini kapat
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Yukarıdaki örnekte kullanılan örnek PDF dosyası marketing.pdf ve extracted.txt adreslerinden indirilebilir.
CURL Komutlarını Kullanarak PDF’den Metin Çıkarın
REST API’lerine cURL komutları aracılığıyla kolayca erişilebilir, bu nedenle bu bölümde, cURL komutlarını kullanarak Metin içeriğini PDF’den nasıl çıkarabileceğimiz seçeneğini keşfedeceğiz. Bu nedenle, ön koşul olarak, aşağıdaki komutu yürütürken önce bir JWT erişim belirteci (istemci kimlik bilgilerine dayalı olarak) oluşturmamız gerekir.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT belirtecine sahip olduğumuzda, PDF belgesindeki tüm metin oluşumlarını çıkarmak için aşağıdaki komutu uygulamamız gerekir.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Çözüm
Bu makale, Java Cloud SDK kullanılarak PDF’nin TXT’ye nasıl dönüştürüleceğine ilişkin ayrıntıları açıklamaktadır. Aynı zamanda, cURL komutlarını kullanarak PDF’den Metin çıkartma seçeneklerini de inceledik. Böylece, birden çok PDF sayfası arasında geçiş yapma esnekliğiyle, içeriğin nereden çıkarılacağı konusunda kontrol sahibi oluyoruz. Java Cloud API tarafından sunulan diğer heyecan verici özellikler hakkında daha fazla bilgi edinmek için Belgeler ürününü keşfetmenizi önemle tavsiye ederiz. Ayrıca, tüm Bulut SDK’larımız MIT lisansı altında yayınlandığından kaynak kodunun tamamını GitHub indirmeyi ve gereksinimlerinize göre değiştirmeyi düşünebilirsiniz. Herhangi bir sorun olması durumunda, hızlı bir çözüm için ücretsiz ürün destek forumu aracılığıyla bize ulaşmayı düşünebilirsiniz.
İlgili Makaleler
Hakkında daha fazla bilgi edinmek için lütfen aşağıdaki bağlantıları ziyaret edin: