PDF'den metin ayıklayın

Java’da PDF’den Metin Çıkarın

PDF dosyalarının, yazılım, donanım veya işletim sisteminden bağımsız olarak belgeleri güvenilir bir şekilde sunmak ve değiş tokuş etmek için kullanılan en önemli ve yaygın olarak kullanılan dijital biçimlerden biri olduğunu hepimiz biliyoruz. Ancak, bazı senaryolarda, büyük PDF dosyalarından bir alıntı almak ilgimizi çekebilir. Veya PDF’yi Metne çevrimiçi olarak kaydetme gereksinimimiz olabilir. Bu nedenle, bu makalede, Java REST API kullanarak PDF’den Metne dönüştürücünün nasıl geliştirileceğine ilişkin ayrıntıları keşfedeceğiz.

PDF Oluşturucu API’sı

Şablonları kullanarak veya REST API’mizi kullanarak sıfırdan PDF belgeleri oluşturma avantajını elde edin. Aynı zamanda API, PDF dosyalarını düzenlemenizin yanı sıra diğer desteklenen biçimlere dönüştürmenize de olanak tanır. Java Cloud SDK kullanarak PDF’den metin çıkarma, PDF dosyalarının şifresini çözme ve birleştirme avantajlarından da yararlanabilirsiniz. Şimdi Aspose.PDF Cloud SDK for Java kullanmak için pom.xml (maven build type proje) içerisine aşağıdaki detayları dahil ederek referansını Java uygulamamıza eklememiz gerekiyor.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Kurulumdan sonra, Cloud Dashboard üzerinden ücretsiz bir hesap oluşturmamız ve kişiselleştirilmiş müşteri kimlik bilgilerini almamız gerekiyor.

Java kullanarak PDF’den Metin Çıkarma

Java bulut SDK’sını kullanarak PDF’den metin ayıklamak için ayrıntıları keşfedelim. Bu örnekte, şu girişi kullanacağız PdfWithTable.pdf dosya.

pdf'den metne ocr

Resim 1: - PDF’den Metne çıkarma için girdi dosyası.

pdf'den metne ocr

Resim 2: - PDF ön izlemesinden metin ayıklayın

// daha fazla örnek için lütfen https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples adresini ziyaret edin.

try
    {
    // https://dashboard.aspose.cloud/ adresinden ClientID ve ClientSecret'i edinin
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // bir PdfApi örneği oluştur
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // giriş PDF belgesinin adı
    String name = "PdfWithTable.pdf";
		        
    // giriş PDF dosyasının içeriğini oku
    File file = new File(name); 
    // PDF'yi bulut depolamaya yükleyin
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Alt - sol köşenin X koordinatı
    Double LLX = 500.0;
    // Y - sol alt köşenin koordinatı.
    Double LLY = 500.0;
    // X - sağ üst köşenin koordinatı.
    Double URX = 800.0;
    // Y - sağ üst köşenin koordinatı.
    Double URY = 800.0;
			       
    // PDF'yi Metne Dönüştürmek için API'yi çağırın
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Tek tek Metin Oluşumu boyunca geçiş yapın
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // konsolda metin içeriği yaz
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Şimdi yukarıda belirtilen kod parçacığını anlamaya çalışalım:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Kişiselleştirilmiş kimlik bilgilerini bağımsız değişken olarak iletirken bir PdfApi örneği oluşturun.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Girdi PDF’sini File nesnesini kullanarak okuyun ve PdfAPi sınıfının uploadFile(…) yöntemini kullanarak bulut depolamaya yükleyin. Lütfen dosyanın uploadFile yönteminde kullanılan adla yüklendiğini unutmayın.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Şimdi getText(..) yöntemini çağırın, burada girdi PDF dosyasının adını, metin içeriğini çıkarmamız gereken sayfadaki dikdörtgen boyutları ve çıkarılan içeriği TextRectsResponse nesnesine döndürün.

response.getTextOccurrences().getList().get(counter).getText()

Son olarak, çıkarılan metin içeriğini yazdırmak için, tüm TextOccurance’ları yineleyeceğiz ve bunları konsolda göstereceğiz.

CURL Komutlarını Kullanarak PDF’den Metne Dönüştürme

Java code snippet dışında cURL komutlarını kullanarak da pdftotext işlemini gerçekleştirebiliriz. Şimdi, bu yaklaşımın ön koşullarından biri, aşağıdaki komutu kullanarak bir JWT erişim belirteci (istemci kimlik bilgilerine dayalı) oluşturmaktır.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT oluşturulduktan sonra, bulut depolama alanında zaten mevcut olan PDF dosyasından metin çıkarmak için lütfen aşağıdaki komutu yürütün.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Hızlı ipucu

PDF to Text ücretsiz App arıyorsunuz! Lütfen PDF Ayrıştırıcımızı kullanmayı deneyin.

Son sözler

Sonuç olarak, Java kullanarak PDF dosyalarından metin çıkarmak, veri işleme ve analiz ihtiyaçlarını otomatikleştirmek isteyenler için güçlü bir çözüm olabilir. Bu kılavuzun yardımıyla, artık üzerine inşa edebileceğiniz sağlam bir temele sahipsiniz ve PDF belgelerinden metin ayıklamak için kendi Java tabanlı çözümünüzü kolayca uygulayabilirsiniz. İster veri analizi, makine öğrenimi veya başka bir amaç için metin ayıklamak isteyin, Java ihtiyaçlarınız için esnek ve güvenilir bir platform sağlar. Öyleyse devam edin ve yeni edindiğiniz becerilerinizi test edin!

API tarafından sunulan diğer heyecan verici özellikleri keşfetmekle ilgileniyorsanız, lütfen Ürün Belgelerini inceleyin. Son olarak, API’yi kullanırken herhangi bir sorunla karşılaşırsanız veya ilgili herhangi bir sorunuz varsa, lütfen ücretsiz Ürün Destek Forumu aracılığıyla bizimle iletişime geçmekten çekinmeyin.

İlgili Makaleler

Hakkında daha fazla bilgi edinmek için lütfen aşağıdaki bağlantıları ziyaret edin: