
So konvertieren Sie PDF in TXT mit Java
Eine PDF-Datei besteht normalerweise aus Text, Bild, Überschrift, Anmerkungen und anderen Elementen. Und da dieses Format das Dokumentenlayout plattformübergreifend (Desktop / Mobile usw.) beibehält, wird es häufig zum Teilen von Informationen über das Internet verwendet. Möglicherweise müssen wir jedoch Textinhalte aus PDF-Dokumenten zur weiteren Verarbeitung extrahieren. In diesem Artikel werden wir die Details zum Extrahieren von Text aus PDF mit Java Cloud SDK besprechen. Sobald der Vorgang abgeschlossen ist, wird die Ausgabe im Format TXT gespeichert.
PDF-zu-TXT-Konvertierungs-API
Aspose.PDF Cloud SDK for Java ist unsere preisgekrönte REST-API-Lösung, die die Funktionen zum Erstellen, Bearbeiten und Konvertieren von PDF in JPG, XPS, HTML, DOCX und eine Vielzahl anderer unterstützter Formate bietet. Um nun die PDF-Texterkennungsfunktionen in der Java-Anwendung zu implementieren, fügen Sie bitte die folgenden Details in pom.xml des Maven-Build-Typ-Projekts hinzu.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Nach der SDK-Installation ist der nächste wichtige Schritt die Erstellung eines kostenlosen Kontos über Aspose Cloud. Melden Sie sich also bitte mit dem neu erstellten Konto an und suchen/erstellen Sie die Client-ID und das Client-Geheimnis unter Cloud Dashboard. Diese Angaben sind in den nachfolgenden Abschnitten erforderlich.
PDF zu Text in Java
Bitte befolgen Sie die unten angegebenen Schritte, um die PDF-in-Text-Konvertierung mit Java Cloud SDK durchzuführen. Nach erfolgreicher Konvertierung wird die resultierende TXT-Datei also im Cloud-Speicher gespeichert.
- Zuerst müssen wir ein PdfApi-Objekt erstellen, während wir ClientID und Client Secret als Argumente angeben
- Zweitens laden Sie die PDF-Eingabedatei mit Dateiinstanz
- Laden Sie die Eingabe-PDF mit der Methode uploadFile(…) in den Cloud-Speicher hoch
- Erstellen Sie eine Integer-Variable, die die Seitenzahl der PDF-Datei für die Textextraktion angibt, und doppelte Instanzen, die den rechteckigen Bereich der Seite angeben, aus dem wir den Textinhalt extrahieren müssen
- Rufen Sie schließlich die Methode getPageText(…) auf, um Textinhalte aus der Eingabe-PDF abzurufen
try
{
// Holen Sie sich ClientID und ClientSecret von https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// Erstellen Sie eine Instanz von PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// Name des eingegebenen PDF-Dokuments
String inputFile = "marketing.pdf";
// Lesen Sie den Inhalt der eingegebenen PDF-Datei
File file = new File("//Users//"+inputFile);
// PDF in den Cloud-Speicher hochladen
pdfApi.uploadFile("input.pdf", file, null);
// bestimmte Seite von PDF für die Konvertierung
int pageNumber =1;
// X-Koordinate der unteren linken Ecke
Double LLX = 0.0;
// Y - Koordinate der unteren linken Ecke.
Double LLY = 0.0;
// X - Koordinate der oberen rechten Ecke.
Double URX = 800.0;
// Y - Koordinate der oberen rechten Ecke.
Double URY = 800.0;
// Rufen Sie die API auf, um PDF in Text zu konvertieren
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// resultierende TXT-Dateiinstanz
FileWriter myWriter = new FileWriter("filename.txt");
// Durchlaufen Sie nun die einzelnen Textvorkommen und erhalten Sie das Druckergebnis in der Konsole
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// Textinhalt in TXT-Datei schreiben
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// Schließen Sie den TXT-Handler
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}

Image1:- Vorschau der PDF-zu-TXT-Konvertierung
Die im obigen Beispiel verwendete PDF-Beispieldatei kann von marketing.pdf und extracted.txt heruntergeladen werden.
Extrahieren Sie Text aus PDF mit cURL-Befehlen
Auf die REST-APIs kann einfach über cURL-Befehle zugegriffen werden, daher werden wir in diesem Abschnitt die Option untersuchen, wie wir mithilfe von cURL-Befehlen Textinhalte aus PDF extrahieren können. Als Voraussetzung müssen wir also zuerst ein JWT-Zugriffstoken (basierend auf Client-Anmeldeinformationen) generieren, während wir den folgenden Befehl ausführen.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sobald wir das JWT-Token haben, müssen wir den folgenden Befehl ausführen, um alle Textvorkommen im PDF-Dokument zu extrahieren.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Fazit
In diesem Artikel wurden die Details zum Konvertieren von PDF in TXT mit Java Cloud SDK erläutert. Gleichzeitig haben wir auch die Optionen zum Extrahieren von Text aus PDF mit cURL-Befehlen untersucht. Mit der Flexibilität, zwischen mehreren PDF-Seiten zu wechseln, haben wir also die Kontrolle darüber, wo der Inhalt extrahiert werden soll. Wir empfehlen Ihnen dringend, das Produkt Dokumentation zu lesen, um mehr über die anderen spannenden Funktionen zu erfahren, die von der Java Cloud API angeboten werden. Da alle unsere Cloud-SDKs unter MIT-Lizenz veröffentlicht werden, können Sie außerdem den vollständigen Quellcode von GitHub herunterladen und ihn gemäß Ihren Anforderungen ändern. Bei Problemen können Sie sich für eine schnelle Lösung über das kostenlose Produkt-Support-Forum an uns wenden.
In Verbindung stehende Artikel
Bitte besuchen Sie die folgenden Links, um mehr darüber zu erfahren: