PDF à TXT

Convertir PDF en TXT en ligne en Java

Le fichier PDF est l’un des formats largement utilisés pour le partage de données et d’informations sur Internet. Cependant, parfois, ils contiennent du contenu à l’aide de polices personnalisées et la taille du fichier résultant peut augmenter. De plus, nous pouvons avoir besoin d’extraire le contenu textuel pour un traitement ultérieur, donc dans ce scénario, la conversion de PDF en texte est l’une des solutions viables. Dans cet article, nous allons discuter des détails sur la façon dont nous pouvons convertir un PDF au format TXT.

API de conversion PDF en texte

Aspose.Words Cloud SDK for Java est une solution leader pour le traitement de documents Word. C’est une solution étonnante offrant les capacités de créer, éditer et transformer une variété de fichiers en DOC, HTML, JPEG et divers autres formats pris en charge. Outre les documents Word, il permet également de charger des fichiers PDF et d’enregistrer la sortie au format TXT, HTML, XPS, TIFF, etc. Afin d’utiliser le SDK, veuillez ajouter les détails suivants à votre pom.xml de votre type de construction maven.

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Nous devons maintenant créer un compte gratuit en visitant tableau de bord Aspose.Cloud. Inscrivez-vous simplement en utilisant votre compte GitHub ou Google existant, ou cliquez sur le bouton Créer un nouveau compte.

Convertir PDF en TXT en Java

Veuillez suivre les instructions ci-dessous pour répondre à vos besoins en utilisant l’extrait de code Java.

  • Tout d’abord, créez un objet de WordsApi en utilisant un ID client et un secret client comme paramètres
  • Deuxièmement, lisez le contenu du fichier PDF à partir du lecteur local à l’aide de l’objet File
  • Troisièmement, lisez le contenu du fichier PDF à l’aide de l’instance UploadFileRequest
  • L’étape suivante consiste à appeler la méthode uploadFile(…) pour télécharger le PDF sur le stockage en nuage
  • Maintenant, créez un objet de GetDocumentWithFormatRequest(…) où nous spécifions le format de sortie au format TXT
  • Enfin, appelez la méthode getDocumentWithFormat(…) pour convertir le PDF en texte et enregistrer la sortie dans le stockage Cloud.
// pour plus d'exemples, veuillez visiter https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Obtenez ClientID et ClientSecret à partir de https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // créer un objet de WordsApi
    // si baseUrl est null, WordsApi utilise par défaut https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // lire le contenu du PDF à partir du lecteur local
    File file = new File("c://input.pdf");
    
    // créer une demande de téléchargement de fichier
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // télécharger le fichier sur le stockage en nuage
    wordsApi.uploadFile(uploadRequest);
        
    // créer un objet de demande de conversion de document
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // Appelez l'API pour convertir un PDF en texte en ligne
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Veuillez utiliser l’extrait de code suivant pour charger le PDF à partir du lecteur local et l’enregistrer au format TXT. Après la conversion, le fichier résultant est enregistré dans le stockage en nuage.

  • Tout d’abord, créez un objet de WordsApi en utilisant un ID client et un secret client comme paramètres
  • Deuxièmement, lisez le contenu du fichier PDF à partir du lecteur local à l’aide de l’objet File
  • Troisièmement, créez un objet de ConvertDocumentRequest(…) où nous fournissons les arguments de l’objet File, TXT comme format résultant et le chemin de sortie du fichier TXT résultant
  • Enfin, appelez la méthode convertDocument(…) pour convertir le PDF en texte et enregistrer la sortie dans le stockage Cloud
// pour plus d'exemples, veuillez visiter https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Obtenez ClientID et ClientSecret à partir de https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // créer un objet de WordsApi
    // si baseUrl est null, WordsApi utilise par défaut https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // lire le contenu du PDF à partir du lecteur local
    File file = new File("c://input.pdf");
           
    // créer un objet de demande de conversion de document
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // Appelez l'API pour convertir le PDF au format texte
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDF en texte

Image 1 :- Aperçu de la conversion PDF en texte dans le stockage en nuage

PDF en TXT à l’aide des commandes cURL

Dans cette section, nous allons effectuer la conversion PDF en texte à l’aide des commandes cURL. Maintenant, en tant que prérequis, nous devons générer le jeton d’accès JWT en fonction des informations d’identification du client à l’aide de la commande suivante.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Veuillez maintenant exécuter la commande suivante pour télécharger le fichier PDF sur le stockage en nuage.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

Enfin, exécutez la commande suivante pour convertir le format PDF au format texte.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusion

Cet article explique les détails de la conversion de PDF en texte à l’aide d’un extrait de code Java. De même, nous avons également appris les étapes de conversion de PDF en TXT à l’aide des commandes cURL. Pour un meilleur apprentissage, vous pouvez explorer l’API à l’aide de Swagger UI dans le navigateur Web.

Si vous avez des questions ou si vous rencontrez des problèmes, n’hésitez pas à nous contacter via le [forum d’assistance technique] gratuit 16.

Articles Liés

Nous vous recommandons vivement de parcourir les articles suivants pour en savoir plus sur :