Wir müssen häufig PDF in Textdateien umwandeln, um sie in der Datenanalyse, der Suchindizierung oder der Wiederverwendung von Inhalten zu verwenden. Wenn Sie außerdem einen PDF zu Text-Konverter erstellen, OCR online automatisieren oder Text aus PDF Dokumenten für eine weitere Verarbeitung kopieren möchten, bietet unsere REST-API eine zuverlässige und entwicklerfreundliche Lösung.

PDF-Konvertierungs-API

Das Aspose.PDF Cloud SDK für .NET ist eine cloudbasierte API, die die Textextraktion aus Dokumenten und die PDF-Verarbeitung vereinfacht. Es verarbeitet sowohl textbasierte als auch bildbasierte PDFs intelligent und liefert genaue und strukturierte Ausgaben im TXT-Format.

Wichtige Merkmale sind:

  • PDF zu TXT-Dateiextraktion mit hoher Genauigkeit.
  • Plattformübergreifende REST-API — funktioniert nahtlos in C#, .NET Core oder jeder Umgebung mit HTTP-Unterstützung.
  • Unterstützung für partielle Extraktion — definieren Sie Regionen und extrahieren Sie Text aus bestimmten Bereichen.

Um zu beginnen, fügen Sie das SDK Ihrem .NET-Projekt mit NuGet hinzu:

Install-Package Aspose.PDF-Cloud

Dann besuchen Sie das Aspose Cloud Dashboard, um Ihre Client-ID und Client-Secret-Anmeldeinformationen zu erhalten.

PDF zu Text-Konvertierung mit C# .NET

Lassen Sie uns ansehen, wie man eine PDF-Datei in eine Textdatei in C# unter Verwendung der .NET REST API konvertiert.

Schritt 1. - Erstellen Sie eine Instanz der PdfApi Klasse unter Verwendung von Client-Anmeldeinformationen.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Schritt 2. - Lesen Sie die Eingabe-PDF-Datei und laden Sie sie in den Cloud-Speicher hoch.

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Schritt 3. - Geben Sie das rechteckige Gebiet im PDF an und extrahieren Sie den Text mit der Methode GetText(...).

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Schritt 4. - Durchlaufen Sie die Liste mit Textelementen und speichern Sie sie auf dem lokalen Laufwerk.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// Für vollständige Beispiele und Datendateien besuchen Sie bitte https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Obtain client credentials from https://dashboard.aspose.cloud/

// Erstellen Sie eine Instanz der PdfApi Klasse.
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// Lade die PDF in den Cloud-Speicher hoch.
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// Speichern Sie den extrahierten Text lokal.
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

Convertieren Sie PDF in TXT-Datei mit cURL

Für Entwickler, die eine Skript oder plattformübergreifende Arbeitsweise bevorzugen, kann die Aspose.PDF Cloud REST API auch mit cURL-Befehlen aufgerufen werden.

Schritt 1. – Erzeugen eines Zugriffstokens:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Schritt 2. – Text aus PDF extrahieren Sobald das JWT-Token generiert wurde, führen Sie bitte den folgenden Befehl aus, um den Text aus dem PDF Dokument zu extrahieren.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

Dieser cURL-Befehl ruft den Textinhalt aus Ihrer PDF-Datei ab und speichert ihn in einer .txt-Datei, was ihn zu einer idealen Methode für die Konvertierung von PDF in Textdateien in automatisierten Umgebungen macht.

Versuchen Sie den kostenlosen PDF zu Text-Konverter.

Suchen Sie eine PDF zu TXT-Konvertierung ohne Programmierung? Versuchen Sie unseren kostenlosen Online PDF zu Text-Konverter — betrieben von Aspose.PDF Cloud. Laden Sie einfach Ihre PDF hoch und laden Sie die extrahierte Textdatei in Sekundenschnelle herunter.

extract text from PDF

Schlussfolgerung

In diesem Artikel haben wir gelernt, dass die Konvertierung von PDF in Text entscheidend ist, um Informationen effizient zu extrahieren und wiederzuverwenden. Mit Aspose.PDF Cloud können Sie den Prozess des Kopierens von Text aus PDFs automatisieren, gescannte Dateien mithilfe von OCR online verarbeiten und Daten als strukturierten Text für Analysen oder Suchindizierung exportieren.

Häufig gestellte Fragen (FAQs)

  1. Can I copy text from PDF programmatically? Absolut. Die API ermöglicht es Ihnen, Text aus PDF Dateien zu kopieren, indem Sie alle Textvorkommen abrufen oder aus bestimmten Regionen mithilfe von Koordinaten extrahieren.

  2. Was ist der Unterschied zwischen PDF zu Text und Text zu PDF? PDF zu Text extrahiert Textdaten aus Dokumenten, während Text zu PDF ein neues PDF Dokument aus einfachem Textinput erstellt. Aspose.PDF Cloud unterstützt beide Operationen.

  3. Do I need Adobe Acrobat installed? Nein. Das Aspose.PDF Cloud SDK funktioniert unabhängig von Adobe Acrobat oder anderer Software. Alle PDF zu Text-Konverteroperationen erfolgen in der Cloud.

  4. Is the extracted text accurate for complex layouts? Ja. Die API kann Texte aus mehrspaltigen Layouts, Tabellen und gemischten Inhalts-PDFs genau extrahieren und dabei eine saubere und leserliche Struktur in der resultierenden TXT-Datei beibehalten.

Verwandte Artikel

Wir empfehlen dringend, die folgenden Blogs zu besuchen: