PDF-Text extrahieren

Extrahieren Sie Text aus PDF mit der .NET REST API.

Die PDF-Dokumente sind zum Standard für die gemeinsame Nutzung und den Austausch von Informationen über verschiedene Plattformen und Geräte hinweg geworden. Obwohl PDFs ein sicheres und konsistentes Format bieten, kann das Extrahieren wichtiger Daten aus diesen Dokumenten eine entmutigende Aufgabe sein, insbesondere wenn es um große Informationsmengen geht. Unabhängig davon, ob Sie Text zur Analyse, Dateneingabe oder Inhaltsbearbeitung extrahieren müssen, ist eine zuverlässige und effiziente Textextraktionslösung von entscheidender Bedeutung. In diesem Artikel tauchen wir in die Welt des Extrahierens von Text aus PDF-Dateien mithilfe der .NET REST API ein, die auf dem robusten Aspose.PDF Cloud SDK basiert.

REST-API für die PDF-Verarbeitung

Aspose.PDF Cloud SDK für .NET ist eine robuste und benutzerfreundliche API, die die Textextraktion aus PDFs vereinfacht. Eine der herausragenden Funktionen des Aspose.PDF Cloud SDK für .NET ist seine Fähigkeit, komplexe PDF-Strukturen zu verarbeiten und Text aus Dokumenten mit unterschiedlichen Layouts präzise zu extrahieren. Unabhängig davon, ob das PDF Text, Bilder, Tabellen oder andere komplexe Elemente enthält, kann die API intelligent durch das Dokument navigieren und den Textinhalt präzise abrufen. Die leistungsstarken Funktionen, die Genauigkeit und die einfache Integration machen es daher zur idealen Wahl, um wertvolle Textdaten aus PDF-Dokumenten innerhalb ihrer .NET-Anwendungen zu extrahieren.

Um nun mit dieser Funktion zu beginnen, besteht der erste Schritt darin, die Referenz des Cloud SDK in unserer .NET-Lösung hinzuzufügen. Suchen Sie also im NuGet-Paketmanager nach „Aspose.PDF-Cloud“ und klicken Sie auf die Schaltfläche „Paket hinzufügen“. Besuchen Sie zweitens das Cloud-Dashboard und erhalten Sie Ihre personalisierten Kundenanmeldeinformationen.

Extrahieren Sie PDF-Text mit C# .NET

In diesem Abschnitt werden wir die Details zum programmgesteuerten Extrahieren von Text aus PDF untersuchen.

// Vollständige Beispiele und Datendateien finden Sie unter 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Holen Sie sich Client-Anmeldeinformationen von https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// Erstellen Sie eine Instanz von PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Geben Sie den Namen der PDF-Datei ein
String inputFile = "Binder1-1.pdf";
// Lesen Sie den Inhalt der PDF-Datei in die Stream-Instanz ein
var sourceFile = System.IO.File.OpenRead(inputFile);

// Laden Sie die PDF-Datei in den Cloud-Speicher hoch
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-Koordinate der unteren linken Ecke
Double LLX = 500.0;
// Y – Koordinate der unteren linken Ecke.
Double LLY = 500.0;
// X – Koordinate der oberen rechten Ecke.
Double URX = 800.0;
// Y – Koordinate der oberen rechten Ecke.
Double URY = 800.0;

// Rufen Sie die API auf, um Text aus bestimmten Koordinaten in einem PDF-Dokument zu extrahieren
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Durchlaufen Sie einzelne Textvorkommen
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // Schreiben Sie Textinhalte in die Konsole
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
PDF-Text extrahieren

Vorschau des aus dem PDF-Dokument entnommenen Textes.

Nachfolgend finden Sie die Details zum oben genannten Codeausschnitt.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Erstellen Sie zunächst eine Instanz der PdfApi-Klasse, in der wir Client-Anmeldeinformationen als Argumente übergeben.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Laden Sie den Inhalt der Eingabe-PDF-Datei in die Stream-Instanz.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Laden Sie das PDF-Dokument in den Cloud-Speicher hoch.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Rufen Sie die API auf, um Text aus einer PDF-Datei an bestimmten Seitenkoordinaten zu extrahieren.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Durchlaufen Sie die Liste mit den extrahierten Textvorkommen und drucken Sie die Textinstanzen in der Konsole aus.

Analysieren Sie Text aus PDF mit cURL-Befehlen

Mit cURL-Befehlen in Kombination mit der Aspose.PDF Cloud API können Sie mühelos Textinhalte aus PDF-Dateien extrahieren, die im Cloud-Speicher gehostet werden. Die API unterstützt eine Vielzahl von Parametern zum Anpassen des Extraktionsprozesses und ermöglicht Ihnen die Angabe von Koordinaten und anderen Optionen zum präzisen Extrahieren von Text.

Der erste Schritt bei diesem Ansatz besteht darin, ein JWT-Zugriffstoken zu generieren und gleichzeitig den folgenden Befehl auszuführen.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Sobald das JWT-Token generiert wurde, führen Sie bitte den folgenden Befehl aus, um den Text aus dem PDF-Dokument abzurufen.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Ersetzen Sie „inputPDF“ durch den Namen des PDF-Dokuments, das bereits im Cloud-Speicher verfügbar ist, und „accessToken“ durch das oben generierte JWT-Token.

Abschluss

Zusammenfassend lässt sich sagen, dass sowohl das Aspose.PDF Cloud SDK für .NET als auch der cURL-Befehlsansatz effiziente und zuverlässige Lösungen zum Extrahieren von Text aus PDF-Dokumenten bieten. Das Aspose.PDF Cloud SDK für .NET bietet eine umfassende und entwicklerfreundliche API mit einer Vielzahl von Funktionen und ist damit eine leistungsstarke Wahl für die Integration der PDF-Textextraktion in .NET-Anwendungen. Andererseits bietet der cURL-Befehlsansatz eine flexible und plattformunabhängige Methode zur Interaktion mit der Aspose.PDF Cloud API, was ihn zu einer hervorragenden Option für Entwickler macht, die in verschiedenen Umgebungen und Programmiersprachen arbeiten.

In Verbindung stehende Artikel

Wir empfehlen dringend, die folgenden Blogs zu besuchen: