Convertisseur PDF en TXT

Comment convertir un PDF en TXT en utilisant Java

Un fichier PDF est généralement composé de texte, d’image, d’en-tête, d’annotations et d’autres éléments. Et comme ce format préserve la mise en page du document sur toutes les plateformes (Desktop / Mobile, etc.), il est donc largement utilisé pour partager des informations sur Internet. Cependant, nous pouvons être amenés à extraire le contenu textuel du document PDF pour un traitement ultérieur. Donc, dans cet article, nous allons discuter des détails sur la façon d’extraire du texte d’un PDF à l’aide de Java Cloud SDK. Une fois l’opération terminée, la sortie est enregistrée au format TXT.

API de conversion PDF en TXT

Aspose.PDF Cloud SDK for Java est notre solution API REST primée offrant les capacités de créer, éditer et convertir des PDF en JPG, XPS, HTML, DOCX et une variété d’autres formats pris en charge. Maintenant, afin d’implémenter les capacités de reconnaissance de texte pdf dans l’application Java, veuillez ajouter les détails suivants dans pom.xml du projet de type de construction maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Après l’installation du SDK, la prochaine étape importante est la création d’un compte gratuit sur Aspose Cloud. Veuillez donc vous connecter en utilisant un compte nouvellement créé et rechercher/créer un ID client et un secret client sur Cloud Dashboard. Ces détails sont requis dans les sections suivantes.

PDF en texte en Java

Veuillez suivre les étapes ci-dessous pour effectuer la conversion PDF en texte à l’aide de Java Cloud SDK. Ainsi, après une conversion réussie, le fichier TXT résultant est enregistré dans le stockage en nuage.

  • Nous devons d’abord créer un objet PdfApi tout en fournissant ClientID et Client secret comme arguments
  • Deuxièmement, chargez le fichier PDF d’entrée à l’aide de l’instance de fichier
  • Téléchargez le PDF d’entrée sur le stockage en nuage à l’aide de la méthode uploadFile(…)
  • Créer une variable Integer spécifiant le numéro de page du PDF pour l’extraction de texte et des instances Double indiquant la région rectangulaire de la page à partir de laquelle nous devons extraire le contenu textuel
  • Enfin, appelez la méthode getPageText(…) pour récupérer le contenu textuel du PDF d’entrée
try
    {
    // Obtenez ClientID et ClientSecret à partir de https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // créer une instance de PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // nom du document PDF d'entrée
    String inputFile = "marketing.pdf";

    // lire le contenu du fichier PDF d'entrée
    File file = new File("//Users//"+inputFile);
	    
    // télécharger le PDF sur le stockage en nuage
    pdfApi.uploadFile("input.pdf", file, null);

    // page spécifique de PDF pour la conversion
    int pageNumber =1;

    // Coordonnée X du coin inférieur gauche
    Double LLX = 0.0;
    // Y - coordonnée du coin inférieur gauche.
    Double LLY = 0.0;
    // X - coordonnée du coin supérieur droit.
    Double URX = 800.0;
    // Y - coordonnée du coin supérieur droit.
    Double URY = 800.0;
	       
    // appeler l'API pour convertir un PDF en texte
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // instance de fichier TXT résultante
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Maintenant, parcourez l'occurrence de texte individuelle pour obtenir le résultat d'impression dans la console
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // écrire du contenu texte dans un fichier TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // fermer le gestionnaire TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Convertir PDF en TXT

Image1 :- Aperçu de la conversion PDF en TXT

L’exemple de fichier PDF utilisé dans l’exemple ci-dessus peut être téléchargé depuis marketing.pdf et extracted.txt

Extraire le texte d’un PDF à l’aide des commandes cURL

Les API REST sont facilement accessibles via les commandes cURL, donc dans cette section, nous allons explorer la possibilité d’extraire le contenu textuel du PDF à l’aide des commandes cURL. Donc, comme condition préalable, nous devons d’abord générer un jeton d’accès JWT (basé sur les informations d’identification du client) lors de l’exécution de la commande suivante.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Une fois que nous avons le jeton JWT, nous devons exécuter la commande suivante pour extraire toutes les occurrences de texte dans le document PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Conclusion

Cet article a expliqué en détail comment convertir un PDF en TXT à l’aide de Java Cloud SDK. Dans le même temps, nous avons également exploré les options d’extraction de texte à partir de PDF à l’aide des commandes cURL. Ainsi, avec la flexibilité de traverser plusieurs pages PDF, nous obtenons un contrôle sur l’endroit où extraire le contenu. Nous vous recommandons fortement d’explorer le produit Documentation pour en savoir plus sur les autres fonctionnalités intéressantes offertes par l’API Java Cloud. De plus, comme tous nos SDK Cloud sont publiés sous licence MIT, vous pouvez envisager de télécharger le code source complet à partir de GitHub et de le modifier selon vos besoins. En cas de problème, vous pouvez envisager de nous contacter pour une résolution rapide via le [forum de support produit] gratuit 9.

Articles Liés

Veuillez visiter les liens suivants pour en savoir plus sur :