Da PDF a TXT

Converti PDF in TXT online in Java

Il file PDF è uno dei formati ampiamente utilizzati per la condivisione di dati e informazioni su Internet. Tuttavia, a volte contengono contenuti utilizzando caratteri personalizzati e la dimensione del file risultante potrebbe aumentare. Inoltre, potremmo avere la necessità di estrarre il contenuto testuale per un’ulteriore elaborazione, quindi in questo scenario la conversione di PDF in testo è una delle soluzioni praticabili. In questo articolo, discuteremo i dettagli su come convertire i PDF in formato TXT.

API di conversione da PDF a testo

Aspose.Words Cloud SDK for Java è la soluzione leader per l’elaborazione di documenti Word. È una soluzione straordinaria che offre la possibilità di creare, modificare e trasformare una varietà di file in DOC, HTML, JPEG e vari altri formati supportati. Oltre ai documenti Word, fornisce anche il supporto per caricare file PDF e salvare l’output in TXT, HTML, XPS, TIFF ecc. Per utilizzare l’SDK, aggiungi i seguenti dettagli al file pom.xml del tipo di build Maven.

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Ora dobbiamo creare un account gratuito visitando Aspose.Cloud dashboard. Registrati semplicemente utilizzando il tuo account GitHub o Google esistente oppure fai clic sul pulsante Crea un nuovo account.

Converti PDF in TXT in Java

Segui le istruzioni riportate di seguito per soddisfare i tuoi requisiti utilizzando lo snippet di codice Java.

  • Innanzitutto, crea un oggetto di WordsApi utilizzando un ID client e un segreto client come parametri
  • In secondo luogo, leggere il contenuto del file PDF dall’unità locale utilizzando l’oggetto File
  • In terzo luogo, leggi il contenuto del file PDF utilizzando l’istanza UploadFileRequest
  • Il passaggio successivo consiste nel chiamare il metodo uploadFile(…) per caricare il PDF nell’archivio cloud
  • Ora, crea un oggetto di GetDocumentWithFormatRequest(…) dove specifichiamo il formato di output come formato TXT
  • Infine, chiama il metodo getDocumentWithFormat(…) per convertire PDF in testo e salvare l’output nell’archivio cloud.
// per ulteriori esempi, visitare https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Ottieni ClientID e ClientSecret da https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // creare un oggetto di WordsApi
    // se baseUrl è nullo, WordsApi utilizza il valore predefinito https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // leggere il contenuto del PDF dall'unità locale
    File file = new File("c://input.pdf");
    
    // creare richiesta di caricamento file
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // caricare il file nell'archivio cloud
    wordsApi.uploadFile(uploadRequest);
        
    // creare un oggetto di richiesta di conversione del documento
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // Chiama l'API per convertire PDF in testo online
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Utilizzare il seguente frammento di codice per caricare il PDF dall’unità locale e salvarlo in formato TXT. Dopo la conversione, il file risultante viene salvato nel cloud storage.

  • Innanzitutto, crea un oggetto di WordsApi utilizzando un ID client e un segreto client come parametri
  • In secondo luogo, leggere il contenuto del file PDF dall’unità locale utilizzando l’oggetto File
  • In terzo luogo, crea un oggetto di ConvertDocumentRequest(…) in cui forniamo gli argomenti dell’oggetto File, TXT come formato risultante e il percorso di output del file TXT risultante
  • Infine, chiama il metodo convertDocument(…) per convertire PDF in testo e salvare l’output nell’archivio cloud
// per ulteriori esempi, visitare https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Ottieni ClientID e ClientSecret da https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // creare un oggetto di WordsApi
    // se baseUrl è nullo, WordsApi utilizza il valore predefinito https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // leggere il contenuto del PDF dall'unità locale
    File file = new File("c://input.pdf");
           
    // creare un oggetto di richiesta di conversione del documento
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // Chiama l'API per convertire PDF in formato testo
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
Da PDF a testo

Immagine 1: - Anteprima della conversione da PDF a testo nel cloud storage

Da PDF a TXT utilizzando i comandi cURL

In questa sezione, eseguiremo la conversione da PDF a testo utilizzando i comandi cURL. Ora, come prerequisito, dobbiamo generare il token di accesso JWT in base alle credenziali del client utilizzando il seguente comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ora esegui il seguente comando per caricare il file PDF nell’archivio cloud.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

Infine, esegui il seguente comando per convertire il formato PDF in testo.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusione

Questo articolo ha spiegato i dettagli sulla conversione di PDF in testo utilizzando lo snippet di codice Java. Allo stesso modo, abbiamo anche imparato i passaggi per convertire PDF in TXT utilizzando i comandi cURL. Per un migliore apprendimento, puoi esplorare l’API utilizzando Swagger UI all’interno del browser web.

In caso di domande correlate o di problemi, non esitare a contattarci tramite il [forum di supporto tecnico] gratuito]16.

articoli Correlati

Consigliamo vivamente di consultare i seguenti articoli per saperne di più su: