PDF(Portable Document Format) dosyaları, farklı platformlar arasında belgeleri paylaşmak için en güvenilir ve en yaygın kullanılan formatlar arasında yer alır—yazılım veya cihazdan bağımsız olarak tutarlı düzen ve görünüm sağlar. Ancak, geliştiricilerin PDF dosyalarından metinleri programatik olarak çıkarması gereken durumlar vardır; örneğin, içerikleri analiz etmek, belgeleri dizinlemek veya PDF’leri düzenlenebilir metin formatlarına dönüştürmek gibi.

Bu makalede, PDF dosyalarından metin çıkarmayı ve REST API kullanarak bir PDF’den Metin dönüştürücü inşa etmeyi keşfedeceğiz. Böylece REST API çağrılarıyla kesintisiz ve otomatik metin çıkarımı sağlanacaktır.

PDF İşleme API’si

Aspose.PDF Cloud SDK for .NET‘in gücünden yararlanarak PDF dosyalarından metinleri verimli bir şekilde çıkarın. Metin çıkarımına ek olarak, SDK’nın sıfırdan veya şablonlardan PDF belgeleri oluşturmanıza, mevcut PDF’leri düzenlemenize ve bunları diğer desteklenen formatlara dönüştürmenize izin verir. Ayrıca, doğrudan .NET REST API aracılığıyla PDF dosyalarını şifre çözme, birleştirme ve manipüle etme gibi görevleri de gerçekleştirebilirsiniz.

Şimdi başlamak için, SDK’yı .NET projemize yüklememiz gerekiyor.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Cloud Dashboard üzerinde ücretsiz bir hesap da oluşturmamız ve kişiselleştirilmiş müşteri kimlik bilgilerini almamız gerekiyor.

PDF’yi Metne Dönüştürme C#’ta

Lütfen aşağıda belirtilen adımları izleyin ve PDF dosyasından metni C# .NET kullanarak çıkarın.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

PdfApi sınıfının bir nesnesini oluşturun ve yukarıda elde edilen istemci kimlik bilgilerini argümanlar olarak geçin.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Yerel sürücüden girdi PDF’sini okuyun ve UploadFile(...) yöntemini kullanarak bulut depolamaya yükleyin.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

PDF dosyasında, metin içeriğini çıkarmak için GetText(...) yöntemini kullanmamız gereken bölgeyi belirtmemiz gerekiyor.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Metin içeriği çıkartıldıktan sonra, ya yerel sürücüye kaydedebiliriz ya da konsolda yazdırabiliriz.

// Daha fazla örnek için lütfen https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet adresini ziyaret edin.

// Müşteri kimlik bilgilerini almak için https://dashboard.aspose.cloud/ adresini ziyaret edin.
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// PdfApi nesnesi oluşturun ve istemci kimlik bilgilerini argüman olarak geçirin.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF dosya adı
String inputFile = "input.pdf";
// PDF dosyasını akış örneğine yükleyin.
var sourceFile = OpenRead(inputFile);

// PDF dosyasını bulut depolamaya yükle.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Aşağı - sol köşenin X koordinatı
Double LLX = 200.0;
// Aşağı-sol köşesinin Y koordinatı.
Double LLY = 200.0;
// Üst sağ köşenin X koordinatı.
Double URX = 600.0;
// Üst sağ köşenin Y koordinatı.
Double URY = 650.0;

// API'yi belirtilen koordinatlardan metin çıkarmak için çağırın.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Şimdi her Metin Oluşumunu yineleyin ve konsolda yazdırın.
// Alternatif olarak, çıktıyı doğrudan .txt dosyasına da kaydedebiliriz.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

PDF’den Metin Çıkarma cURL kullanarak

.NET veya Java kod parçacıkları kullanmanın yanı sıra, PDF dosyalarından metin çıkarmak için Aspose.PDF Cloud cURL komutları aracılığıyla da yapabilirsiniz. Bu yaklaşımda, ön koşul bir JWT erişim belirteci (istemci kimlik bilgilerinize dayalı olarak) oluşturmaktır ve bu, aşağıdaki komut kullanılarak elde edilebilir.

Adım 1. - JWTAccess jetonunu alın:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Adım 1. - PDF dosyasından metin çıkarın:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • Komut başarıyla yürütüldükten sonra, belirtilen dikdörtgen alandaki metin bir metin dosyasına çıkarılır.

Ücretsiz PDF Ayrıştırıcı Uygulama

Eğer API’nin yeteneklerini herhangi bir kodlama veya cURL komutları olmadan test etmek istiyorsanız, .NET REST APIs üzerine inşa edilmiş [Ücretsiz PDF Ayrıştırıcı] uygulamamızı denemeyi deneyin.

pdf parser uygulaması

Sonuç Bölümü

Bu makalede, Aspose.PDF Cloud SDK’sının .NET projemize metin çıkarma amacıyla nasıl entegre edileceği hakkında ayrıntıları öğrendik ve aynı zamanda cURL komutlarını kullanarak komut satırı arayüzü aracılığıyla PDF metin çıkarma seçeneğini keşfettik. Yani, amacınız veri analizi, makine öğrenimi veya diğer otomasyon amaçları olsun, SDK, PDF içeriğini verimli bir şekilde yönetmek için güvenilir araçlarla sizi güçlendirir. Bu becerileri pratiğe dökün ve PDF işlemlerinizi profesyonelce düzenleyin!

Okuma Malzemesi

İlgili Makaleler

Aşağıdaki bağlantılara göz atmanızı da öneririz: