PDF belgeleri, çeşitli platformlar ve cihazlar arasında bilgi paylaşımı ve alışverişi için standart haline geldi. PDF’ler güvenli ve tutarlı bir format sunarken, bu belgelerden önemli verileri çıkarmak, özellikle büyük miktarda bilgiyle uğraşırken göz korkutucu bir görev olabilir. Analiz, veri girişi veya içerik işleme için metin ayıklamanız gerekiyorsa, güvenilir ve etkili bir metin çıkarma çözümü çok önemlidir. Bu makalede, güçlü Aspose.PDF Cloud SDK tarafından desteklenen .NET REST API’yi kullanarak PDF dosyalarından metin çıkarma dünyasını derinlemesine inceliyoruz.
- PDF İşleme için REST API
- C# .NET kullanarak PDF Metnini Çıkarma
- cURL Komutlarını Kullanarak PDF’den Metin Ayrıştırma
PDF İşleme için REST API
Aspose.PDF Cloud SDK for .NET, PDF’lerden metin çıkarmayı kolaylaştıran sağlam ve kullanıcı dostu bir API’dir. Aspose.PDF Cloud SDK for .NET’in öne çıkan özelliklerinden biri, karmaşık PDF yapılarını yönetme ve farklı düzenlere sahip belgelerden doğru şekilde metin çıkarma yeteneğidir. PDF’nin metin, resim, tablo veya diğer karmaşık öğeler içermesinden bağımsız olarak API, belgede akıllı bir şekilde gezinebilir ve metin içeriğini hassas bir şekilde alabilir. Bu nedenle, güçlü özellikleri, doğruluğu ve entegrasyon kolaylığı, onu .NET uygulamaları içindeki PDF belgelerinden değerli metin verilerinin çıkarılması için ideal bir seçim haline getirir.
Şimdi bu özelliğe başlamak için ilk adım Cloud SDK referansını .NET çözümümüze eklemektir. Bu nedenle, NuGet paket yöneticisinde “Aspose.PDF-Cloud"u arayın ve “Paket Ekle” düğmesini tıklayın. İkinci olarak, bulut kontrol panelini ziyaret edin ve kişiselleştirilmiş müşteri kimlik bilgilerinizi alın.
C# .NET kullanarak PDF Metnini Çıkarma
Bu bölümde PDF’den programlı olarak metin çıkarmak için detayları inceleyeceğiz.
// Örneklerin ve veri dosyalarının tamamı için lütfen şu adrese gidin:
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// https://dashboard.aspose.cloud/ adresinden istemci kimlik bilgilerini alın
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// PdfApi'nin bir örneğini oluşturun
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// PDF dosya adını girin
String inputFile = "Binder1-1.pdf";
// PDF dosyasının içeriğini akış örneğine okuyun
var sourceFile = System.IO.File.OpenRead(inputFile);
// PDF dosyasını bulut depolama alanına yükleyin
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// Sol alt köşenin X koordinatı
Double LLX = 500.0;
// Y - sol alt köşenin koordinatı.
Double LLY = 500.0;
// X - sağ üst köşenin koordinatı.
Double URX = 800.0;
// Y - sağ üst köşenin koordinatı.
Double URY = 800.0;
// PDF belgesindeki belirli koordinatlardan metin çıkarmak için API'yi çağırın
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Bireysel Metin Oluşumu boyunca geçiş yapın
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// konsola metin içeriği yaz
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Yukarıda belirtilen kod pasajına ilişkin ayrıntılar aşağıda verilmiştir.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Öncelikle, istemci kimlik bilgilerini argüman olarak ileteceğimiz PdfApi sınıfının bir örneğini oluşturun.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
Akış örneğine giriş PDF dosyasının içeriğini yükleyin.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
PDF belgesini bulut depolama alanına yükleyin.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Belirli sayfa koordinatlarındaki PDF dosyasından metin çıkarmak için API’yi çağırın.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Çıkarılan metin oluşumlarını içeren listeyi yineleyin ve metin örneklerini konsolda yazdırın.
cURL Komutlarını Kullanarak PDF’den Metin Ayrıştırma
cURL komutlarını Aspose.PDF Cloud API ile birlikte kullanarak, bulut depolama alanında barındırılan PDF dosyalarından metin içeriğini zahmetsizce çıkarabilirsiniz. API, çıkarma işlemini özelleştirmek için çeşitli parametreleri destekler; koordinatları belirlemenize ve metni hassas bir şekilde ayıklamak için diğer seçeneklere olanak tanır.
Bu yaklaşımın ilk adımı, aşağıdaki komutu yürütürken bir JWT erişim belirteci oluşturmaktır.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT belirteci oluşturulduktan sonra metni PDF belgesinden almak için lütfen aşağıdaki komutu yürütün.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
‘inputPDF’i, bulut depolamada zaten mevcut olan PDF belgesinin adıyla ve ‘accessToken’ı yukarıda oluşturulan JWT jetonuyla değiştirin.
Çözüm
Sonuç olarak, hem Aspose.PDF Cloud SDK for .NET hem de cURL komut yaklaşımı, PDF belgelerinden metin çıkarmak için etkili ve güvenilir çözümler sunar. Aspose.PDF Cloud SDK for .NET, çok çeşitli özelliklere sahip kapsamlı ve geliştirici dostu bir API sunarak PDF metin çıkarımını .NET uygulamalarına entegre etmek için güçlü bir seçim haline getiriyor. Öte yandan cURL komut yaklaşımı, Aspose.PDF Cloud API ile etkileşime geçmek için esnek ve platformdan bağımsız bir yöntem sunarak onu farklı ortamlarda ve programlama dillerinde çalışan geliştiriciler için mükemmel bir seçenek haline getiriyor.
kullanışlı bağlantılar
İlgili Makaleler
Aşağıdaki blogları ziyaret etmenizi önemle tavsiye ederiz: