Il file PDF è uno dei formati ampiamente utilizzati per la condivisione di dati e informazioni su Internet. Tuttavia, a volte contengono contenuti utilizzando caratteri personalizzati e la dimensione del file risultante potrebbe aumentare. Inoltre, potremmo avere la necessità di estrarre il contenuto testuale per un’ulteriore elaborazione, quindi in questo scenario la conversione di PDF in testo è una delle soluzioni praticabili. In questo articolo, discuteremo i dettagli su come convertire i PDF in formato TXT.
- API di conversione da PDF a testo
- Converti PDF in TXT in Java
- Da PDF a TXT utilizzando i comandi cURL
API di conversione da PDF a testo
Aspose.Words Cloud SDK for Java è la soluzione leader per l’elaborazione di documenti Word. È una soluzione straordinaria che offre la possibilità di creare, modificare e trasformare una varietà di file in DOC, HTML, JPEG e vari altri formati supportati. Oltre ai documenti Word, fornisce anche il supporto per caricare file PDF e salvare l’output in TXT, HTML, XPS, TIFF ecc. Per utilizzare l’SDK, aggiungi i seguenti dettagli al file pom.xml del tipo di build Maven.
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.cloud/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words-cloud</artifactId>
<version>22.5.0</version>
</dependency>
</dependencies>
Ora dobbiamo creare un account gratuito visitando Aspose.Cloud dashboard. Registrati semplicemente utilizzando il tuo account GitHub o Google esistente oppure fai clic sul pulsante Crea un nuovo account.
Converti PDF in TXT in Java
Segui le istruzioni riportate di seguito per soddisfare i tuoi requisiti utilizzando lo snippet di codice Java.
- Innanzitutto, crea un oggetto di WordsApi utilizzando un ID client e un segreto client come parametri
- In secondo luogo, leggere il contenuto del file PDF dall’unità locale utilizzando l’oggetto File
- In terzo luogo, leggi il contenuto del file PDF utilizzando l’istanza UploadFileRequest
- Il passaggio successivo consiste nel chiamare il metodo uploadFile(…) per caricare il PDF nell’archivio cloud
- Ora, crea un oggetto di GetDocumentWithFormatRequest(…) dove specifichiamo il formato di output come formato TXT
- Infine, chiama il metodo getDocumentWithFormat(…) per convertire PDF in testo e salvare l’output nell’archivio cloud.
// per ulteriori esempi, visitare https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Ottieni ClientID e ClientSecret da https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// creare un oggetto di WordsApi
// se baseUrl è nullo, WordsApi utilizza il valore predefinito https://api.aspose.cloud
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// leggere il contenuto del PDF dall'unità locale
File file = new File("c://input.pdf");
// creare richiesta di caricamento file
UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
// caricare il file nell'archivio cloud
wordsApi.uploadFile(uploadRequest);
// creare un oggetto di richiesta di conversione del documento
GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
// Chiama l'API per convertire PDF in testo online
wordsApi.getDocumentWithFormat(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
Utilizzare il seguente frammento di codice per caricare il PDF dall’unità locale e salvarlo in formato TXT. Dopo la conversione, il file risultante viene salvato nel cloud storage.
- Innanzitutto, crea un oggetto di WordsApi utilizzando un ID client e un segreto client come parametri
- In secondo luogo, leggere il contenuto del file PDF dall’unità locale utilizzando l’oggetto File
- In terzo luogo, crea un oggetto di ConvertDocumentRequest(…) in cui forniamo gli argomenti dell’oggetto File, TXT come formato risultante e il percorso di output del file TXT risultante
- Infine, chiama il metodo convertDocument(…) per convertire PDF in testo e salvare l’output nell’archivio cloud
// per ulteriori esempi, visitare https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Ottieni ClientID e ClientSecret da https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// creare un oggetto di WordsApi
// se baseUrl è nullo, WordsApi utilizza il valore predefinito https://api.aspose.cloud
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// leggere il contenuto del PDF dall'unità locale
File file = new File("c://input.pdf");
// creare un oggetto di richiesta di conversione del documento
ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
// Chiama l'API per convertire PDF in formato testo
wordsApi.convertDocument(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
Da PDF a TXT utilizzando i comandi cURL
In questa sezione, eseguiremo la conversione da PDF a testo utilizzando i comandi cURL. Ora, come prerequisito, dobbiamo generare il token di accesso JWT in base alle credenziali del client utilizzando il seguente comando.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Ora esegui il seguente comando per caricare il file PDF nell’archivio cloud.
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>" \
-H "Content-Type: multipart/form-data" \
-d {"fileContent":{}}
Infine, esegui il seguente comando per convertire il formato PDF in testo.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Conclusione
Questo articolo ha spiegato i dettagli sulla conversione di PDF in testo utilizzando lo snippet di codice Java. Allo stesso modo, abbiamo anche imparato i passaggi per convertire PDF in TXT utilizzando i comandi cURL. Per un migliore apprendimento, puoi esplorare l’API utilizzando Swagger UI all’interno del browser web.
In caso di domande correlate o di problemi, non esitare a contattarci tramite il [forum di supporto tecnico] gratuito]16.
articoli Correlati
Consigliamo vivamente di consultare i seguenti articoli per saperne di più su: