
PDF’yi Python’da Metne Nasıl Dönüştürebilirim
Günümüzün dijital dünyasında bol miktarda bilgi var ve PDF belgelerinden metin çıkarma yeteneği sadece bir kolaylık değil, bir zorunluluk haline geldi. Uzun bir PDF dosyasını karıştırdığınızı, araştırmanızda alıntılamak için kritik bir bilgi parçası aradığınızı veya belki de analiz için veri çıkarmaya çalışan bir belge deposunu yönettiğinizi hayal edin. Bu senaryolarda ve daha birçok durumda, PDF içeriğini zahmetsizce düz metne dönüştürme yeteneği oyunun kurallarını değiştiren bir özellik olarak ortaya çıkıyor. Bu makale, Python Cloud SDK kullanarak PDF’lerden metin çıkarmanın derin amacını ve yadsınamaz faydalarını araştırıyor. Bu dönüşüm, bireylerin ve kuruluşların bilginin derin bir öneme sahip olduğu bir dünyada dijital içeriği verimli bir şekilde yönetmelerini, analiz etmelerini ve kullanmalarını sağlar.
- PDF’yi Metne Dönüştürme REST API’si
- Python’da PDF’den Metin Çıkarma
- cURL Komutunu Kullanarak PDF’yi Metne Dönüştürme
PDF’yi Metne Dönüştürme REST API’si
PDF belgelerinden metin çıkarma işlemi Aspose.PDF Cloud SDK for Python ile sorunsuz ve verimli hale getirildi. Bu çok yönlü SDK, PDF içeriğini zahmetsizce düz metne dönüştürmenizi ve bu dijital belgelerde saklanan bilgileri açığa çıkarmanızı sağlar.
Cloud SDK, PIP ve GitHub deposu üzerinden ücretsiz olarak indirilebilir. Şimdi SDK’nin en son sürümünü yüklemek için terminal/komut isteminde aşağıdaki komutu çalıştırın:
pip install asposepdfcloud
Eğer PyCharm IDE kullanıyorsanız, SDK’yı doğrudan projenize bağımlılık olarak ekleyebilirsiniz.
Dosya ->Ayarlar ->Proje ->Python Yorumlayıcı ->asposepdfcloud
Kurulumdan sonraki önemli adım, Aspose.Cloud panosu üzerinden bulut hizmetlerimize ücretsiz abone olmaktır. GitHub veya Google hesabınız varsa, sadece Kaydolun veya Yeni Hesap Oluştur düğmesine tıklayın. Şimdi panoya giriş yapın ve kişiselleştirilmiş İstemci Kimliğinizi ve İstemci Gizli Bilgilerinizi edinin.
Python’da PDF’den Metin Çıkarma
Python SDK kullanarak PDF belgelerinden Metin çıkarmak için lütfen aşağıda verilen talimatları izleyin.
- Öncelikle, Client ID Client Secret’ı argüman olarak sağlayarak ApiClient sınıfının bir örneğini oluşturun.
- İkinci olarak, giriş argümanı olarak ApiClient nesnesini alan bir PdfApi sınıfı örneği oluşturun.
- Şimdi LLX, LLY, URX ve URY koordinatlarını sağlayarak gettext(…) metodunu çağırın.
def extractText():
try:
#Client credentials
client_secret = "1c9379bb7d701c26cc87e741a29987bb"
client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# PdfApiClient'ı argüman olarak geçirirken PdfApi örneği oluşturun
pdf_api = PdfApi(pdf_api_client)
#source image file
input_file = 'awesomeTable.pdf'
# Metni çıkarmak için yöntemi çağırın
response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
print(response)
# konsolda mesajı yazdır (isteğe bağlı)
print('Text Extracted successfully from PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)

Resim 1:- PDF’den Metne önizleme.
Belgenin belirli bir sayfasından metni çıkarmanız gerekiyorsa, lütfen pageNumber’ı argüman olarak alan GetPageText API’sini kullanmayı deneyin.
cURL Komutunu Kullanarak PDF’yi Metne Dönüştürme
Aspose.PDF Cloud ve cURL komutlarının güçlü birleşimini kullanarak PDF içeriğinin düz metne sorunsuz dönüşümünü deneyimleyin. Bu dinamik entegrasyon yalnızca PDF’den metne dönüştürmeyi basitleştirmekle kalmaz, aynı zamanda belge yönetiminizi ve metin çıkarma deneyiminizi geliştiren çeşitli avantajlar da sunar.
Lütfen bu yaklaşımın ön koşulunun istemci kimlik bilgilerinize dayalı bir JSON Web Token (JWT) oluşturmak olduğunu unutmayın. API’lerimize yalnızca kayıtlı kullanıcılar erişebildiğinden bu adım zorunludur. Lütfen JWT token’ını oluşturmak için aşağıdaki komutu yürütün.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT belirtecine sahip olduğumuzda, tüm metinsel içeriği çıkararak PDF’yi metne dönüştürmek için aşağıdaki komutu kullanabiliriz. Çıktı yerel sürücüde düz metin dosyası olarak kaydedilir.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>" \
-o Extracted.txt
Yukarıdaki örnekte kullanılan örnek awesomeTable.pdf adresinden indirilebilir.
Çözüm
PDF belgelerinden metin çıkarmak, dijital bilgilerle dolu bir dünyada kritik bir gerekliliktir. Bu süreci incelerken, iki dinamik yolu inceledik: biri Python için çok yönlü Aspose.PDF Cloud SDK aracılığıyla, diğeri ise Aspose.PDF Cloud ve cURL komutlarının güçlü birleşimi aracılığıyla.
Her iki yaklaşım da statik PDF içeriği ile dinamik metin arasındaki boşluğu kapatarak dijital bilgileri yönetme, analiz etme ve kullanma şeklimizi geliştirir. İster SDK’nin karmaşıklığını, ister cURL komutlarının basitliğini tercih edin, her iki yol da verimli PDF’den metne dönüştürmeye yol açarak PDF belgelerinde gizli olan zengin metinsel verileri açığa çıkarmanızı sağlar.
İlgili Makaleler
Daha fazla bilgi edinmek için aşağıdaki bağlantıları da ziyaret etmenizi öneririz: