Die Datei PDF ist eines der weit verbreiteten Formate für den Daten- und Informationsaustausch über das Internet. Manchmal enthalten sie jedoch Inhalte mit benutzerdefinierten Schriftarten, und die Größe der resultierenden Datei kann erhöht werden. Darüber hinaus müssen wir möglicherweise den Textinhalt für die weitere Verarbeitung extrahieren, sodass in diesem Szenario die Konvertierung von PDF in Text eine der praktikablen Lösungen ist. In diesem Artikel werden wir die Details besprechen, wie wir PDF in das TXT-Format konvertieren können.
PDF-zu-Text-Konvertierungs-API
Aspose.Words Cloud SDK for Java ist eine führende Lösung für die Verarbeitung von Word-Dokumenten. Es ist eine erstaunliche Lösung, die die Möglichkeit bietet, eine Vielzahl von Dateien zu erstellen, zu bearbeiten und in DOC, HTML, JPEG und verschiedene andere unterstützte Formate umzuwandeln. Neben Word-Dokumenten bietet es auch die Unterstützung zum Laden von PDF-Dateien und zum Speichern der Ausgabe in TXT, HTML, XPS, TIFF usw. Jetzt in Um das SDK zu verwenden, fügen Sie bitte die folgenden Details zu Ihrer pom.xml Ihres Maven-Build-Typs hinzu.
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.cloud/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words-cloud</artifactId>
<version>22.5.0</version>
</dependency>
</dependencies>
Jetzt müssen wir ein kostenloses Konto erstellen, indem wir Aspose.Cloud-Dashboard besuchen. Melden Sie sich einfach mit Ihrem bestehenden GitHub- oder Google-Konto an oder klicken Sie auf die Schaltfläche Neues Konto erstellen.
Konvertieren Sie PDF in TXT in Java
Bitte befolgen Sie die nachstehenden Anweisungen, um Ihre Anforderungen mit einem Java-Code-Snippet zu erfüllen.
- Erstellen Sie zunächst ein WordsApi-Objekt mit einer Client-ID und einem geheimen Clientschlüssel als Parameter
- Zweitens lesen Sie den Inhalt der PDF-Datei vom lokalen Laufwerk mit dem File-Objekt
- Lesen Sie drittens den Inhalt der PDF-Datei mithilfe der UploadFileRequest-Instanz
- Der nächste Schritt besteht darin, die Methode uploadFile(…) aufzurufen, um das PDF in den Cloud-Speicher hochzuladen
- Erstellen Sie nun ein Objekt von GetDocumentWithFormatRequest(…), in dem wir das Ausgabeformat als TXT-Format angeben
- Rufen Sie schließlich die Methode getDocumentWithFormat(…) auf, um PDF in Text zu konvertieren und die Ausgabe im Cloud-Speicher zu speichern.
// Weitere Beispiele finden Sie unter https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Holen Sie sich ClientID und ClientSecret von https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// Erstellen Sie ein Objekt von WordsApi
// Wenn baseUrl null ist, verwendet WordsApi standardmäßig https://api.aspose.cloud
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// Lesen Sie den Inhalt der PDF-Datei vom lokalen Laufwerk
File file = new File("c://input.pdf");
// Datei-Upload-Anfrage erstellen
UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
// Datei in den Cloud-Speicher hochladen
wordsApi.uploadFile(uploadRequest);
// Dokumentkonvertierungsanforderungsobjekt erstellen
GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
// Rufen Sie die API auf, um PDF online in Text umzuwandeln
wordsApi.getDocumentWithFormat(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
Bitte verwenden Sie das folgende Code-Snippet, um PDF vom lokalen Laufwerk zu laden und im TXT-Format zu speichern. Nach der Konvertierung wird die resultierende Datei im Cloud-Speicher gespeichert.
- Erstellen Sie zunächst ein WordsApi-Objekt mit einer Client-ID und einem geheimen Clientschlüssel als Parameter
- Zweitens lesen Sie den Inhalt der PDF-Datei vom lokalen Laufwerk mit dem File-Objekt
- Erstellen Sie drittens ein Objekt von ConvertDocumentRequest(…), in dem wir Argumente des Dateiobjekts, TXT als resultierendes Format und den Ausgabepfad der resultierenden TXT-Datei bereitstellen
- Rufen Sie schließlich die Methode convertDocument(…) auf, um PDF in Text zu konvertieren und die Ausgabe im Cloud-Speicher zu speichern
// Weitere Beispiele finden Sie unter https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Holen Sie sich ClientID und ClientSecret von https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// Erstellen Sie ein Objekt von WordsApi
// Wenn baseUrl null ist, verwendet WordsApi standardmäßig https://api.aspose.cloud
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// Lesen Sie den Inhalt der PDF-Datei vom lokalen Laufwerk
File file = new File("c://input.pdf");
// Dokumentkonvertierungsanforderungsobjekt erstellen
ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
// Rufen Sie die API auf, um PDF in das Textformat zu konvertieren
wordsApi.convertDocument(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
PDF zu TXT mit cURL-Befehlen
In diesem Abschnitt führen wir die PDF-zu-Text-Konvertierung mit cURL-Befehlen durch. Als Voraussetzung müssen wir jetzt das JWT-Zugriffstoken basierend auf den Client-Anmeldeinformationen mit dem folgenden Befehl generieren.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Führen Sie nun bitte den folgenden Befehl aus, um die PDF-Datei in den Cloud-Speicher hochzuladen.
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>" \
-H "Content-Type: multipart/form-data" \
-d {"fileContent":{}}
Führen Sie abschließend den folgenden Befehl aus, um PDF in das Textformat zu konvertieren.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Fazit
In diesem Artikel wurden die Details zum Konvertieren von PDF in Text mithilfe von Java-Code-Snippets erläutert. In ähnlicher Weise haben wir auch die Schritte zum Konvertieren von PDF in TXT mit den cURL-Befehlen gelernt. Zum besseren Lernen können Sie die API mit Swagger UI im Webbrowser erkunden.
Sollten Sie diesbezügliche Fragen haben oder auf Probleme stoßen, wenden Sie sich bitte über das kostenlose Forum für technischen Support an uns.
In Verbindung stehende Artikel
Wir empfehlen dringend, die folgenden Artikel zu lesen, um mehr darüber zu erfahren: