PDF(Portable Document Format) Dateien gehören zu den vertrauenswürdigsten und am weitesten verbreiteten Formaten zum Teilen von Dokumenten über verschiedene Plattformen hinweg – sie gewährleisten eine konsistente Darstellung und Erscheinung unabhängig von Software oder Gerät. Es gibt jedoch Situationen, in denen Entwickler Text aus PDF Dateien programmatisch extrahieren müssen, z. B. zur Analyse von Inhalten, Indizierung von Dokumenten oder Umwandlung von PDFs in bearbeitbare Textformate.

In diesem Artikel werden wir untersuchen, wie man Text aus PDF Dateien extrahiert und einen PDF zu Text-Konverter mit der .NET REST-API erstellt, der eine nahtlose und automatisierte Textextraktion über REST-API-Aufrufe ermöglicht.

PDF-Verarbeitungs-API

Nutzen Sie die Leistung des Aspose.PDF Cloud SDK für .NET, um Text effizient aus PDF Dateien zu extrahieren. Neben der Textextraktion ermöglicht das SDK das Erstellen von PDF Dokumenten von Grund auf oder aus Vorlagen, das Bearbeiten vorhandener PDFs und das Konvertieren in andere unterstützte Formate. Sie können auch Aufgaben wie das Entschlüsseln, Zusammenführen und Bearbeiten von PDF Dateien direkt über die .NET REST API ausführen.

Jetzt müssen wir das SDK in unserem .NET-Projekt installieren.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Wir müssen auch ein kostenloses Konto auf Cloud Dashboard erstellen und unsere personalisierten Klientenanmeldeinformationen erhalten.

Perform PDF to Text Conversion in C#

Bitte folgen Sie den folgenden Schritten, um den Text aus einer PDF-Datei mit C# .NET zu extrahieren.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Erstellen Sie ein Objekt der Klasse PdfApi, bei dem wir die oben erhaltenen Client-Anmeldeinformationen als Argumente übergeben.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Lesen Sie die Eingabe-PDF von der lokalen Festplatte und laden Sie sie mit der Methode UploadFile(...) in den Cloud-Speicher hoch.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Wir müssen die Region in der PDF-Datei angeben, aus der wir den Textinhalt mit der GetText(...)-Methode extrahieren müssen.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Sobald der Textinhalt extrahiert wurde, können wir ihn entweder auf dem lokalen Laufwerk speichern oder ihn in der Konsole ausgeben.

// Für weitere Beispiele besuchen Sie bitte https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Holen Sie sich die Client-Anmeldeinformationen von https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// ein Objekt von PdfApi erstellen, während die Client-Anmeldeinformationen als Argumente übergeben werden
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF-Dateiname
String inputFile = "input.pdf";
// Laden Sie die PDF-Datei in eine Stream-Instanz.
var sourceFile = OpenRead(inputFile);

// Upload PDF-Datei in den Cloud-Speicher
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-Koordinate der unteren linken Ecke
Double LLX = 200.0;
// Y-Koordinate der unteren linken Ecke.
Double LLY = 200.0;
// X - Koordinate der oberen rechten Ecke.
Double URX = 600.0;
// Y-Koordinate der oberen rechten Ecke.
Double URY = 650.0;

// Call the API to extract text from specified coordinates
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Jetzt durchlaufen Sie jede Textvorkommen und drucken Sie sie in die Konsole.
// Alternativ können wir die Ausgabe auch direkt in eine .txt-Datei speichern.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Text aus PDF mit cURL extrahieren

Abgesehen von der Verwendung von .NET oder Java-Code-Schnipseln können Sie auch Text aus PDF Dateien mithilfe von Aspose.PDF Cloud über cURL-Befehle extrahieren. In diesem Ansatz besteht die Voraussetzung darin, ein JWT-Zugriffstoken (basierend auf Ihren Client-Anmeldeinformationen) zu generieren, das mit dem folgenden Befehl erhalten werden kann.

Schritt 1. - JWTAccess-Token erhalten:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Schritt 1. - Text aus PDF-Datei extrahieren:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • Sobald der Befehl erfolgreich ausgeführt wurde, wird der Text aus dem angegebenen rechteckigen Bereich in eine Textdatei extrahiert.

Kostenlose PDF-Parser-App

Wenn Sie die Möglichkeiten der API ohne Programmieren oder cURL-Befehle testen möchten, versuchen Sie unsere [Free PDF Parser] Anwendung, die auf .NET REST APIs basiert.

pdf parser app

Abschließende Bemerkungen

In diesem Artikel haben wir die Einzelheiten gelernt, wie man das Aspose.PDF Cloud SDK für .NET in unser .NET-Projekt zur Textextraktion integrieren kann, und gleichzeitig haben wir die Möglichkeit untersucht, cURL-Befehle zu verwenden, um die Textextraktion aus PDFs über die Befehlszeilenoberfläche durchzuführen. Egal, ob Ihr Ziel Datenanalyse, maschinelles Lernen oder andere Automatisierungszwecke sind, das SDK bietet Ihnen zuverlässige Werkzeuge, um PDF-Inhalte effizient zu verwalten. Setzen Sie diese Fähigkeiten in die Praxis um und optimieren Sie Ihre PDF-Bearbeitung wie ein Profi!

Lesematerial

Verwandte Artikel

Wir empfehlen auch, die folgenden Links zu besuchen, um mehr über zu erfahren: