Un fichier PDF est généralement composé de texte, d’image, d’en-tête, d’annotations et d’autres éléments. Et comme ce format préserve la mise en page du document sur toutes les plateformes (Desktop / Mobile, etc.), il est donc largement utilisé pour partager des informations sur Internet. Cependant, nous pouvons être amenés à extraire le contenu textuel du document PDF pour un traitement ultérieur. Donc, dans cet article, nous allons discuter des détails sur la façon d’extraire du texte d’un PDF à l’aide de Java Cloud SDK. Une fois l’opération terminée, la sortie est enregistrée au format TXT.
- API de conversion PDF en TXT
- PDF en texte en Java
- Extraire le texte d’un PDF à l’aide des commandes cURL
API de conversion PDF en TXT
Aspose.PDF Cloud SDK for Java est notre solution API REST primée offrant les capacités de créer, éditer et convertir des PDF en JPG, XPS, HTML, DOCX et une variété d’autres formats pris en charge. Maintenant, afin d’implémenter les capacités de reconnaissance de texte pdf dans l’application Java, veuillez ajouter les détails suivants dans pom.xml du projet de type de construction maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Après l’installation du SDK, la prochaine étape importante est la création d’un compte gratuit sur Aspose Cloud. Veuillez donc vous connecter en utilisant un compte nouvellement créé et rechercher/créer un ID client et un secret client sur Cloud Dashboard. Ces détails sont requis dans les sections suivantes.
PDF en texte en Java
Veuillez suivre les étapes ci-dessous pour effectuer la conversion PDF en texte à l’aide de Java Cloud SDK. Ainsi, après une conversion réussie, le fichier TXT résultant est enregistré dans le stockage en nuage.
- Nous devons d’abord créer un objet PdfApi tout en fournissant ClientID et Client secret comme arguments
- Deuxièmement, chargez le fichier PDF d’entrée à l’aide de l’instance de fichier
- Téléchargez le PDF d’entrée sur le stockage en nuage à l’aide de la méthode uploadFile(…)
- Créer une variable Integer spécifiant le numéro de page du PDF pour l’extraction de texte et des instances Double indiquant la région rectangulaire de la page à partir de laquelle nous devons extraire le contenu textuel
- Enfin, appelez la méthode getPageText(…) pour récupérer le contenu textuel du PDF d’entrée
try
{
// Obtenez ClientID et ClientSecret à partir de https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// créer une instance de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// nom du document PDF d'entrée
String inputFile = "marketing.pdf";
// lire le contenu du fichier PDF d'entrée
File file = new File("//Users//"+inputFile);
// télécharger le PDF sur le stockage en nuage
pdfApi.uploadFile("input.pdf", file, null);
// page spécifique de PDF pour la conversion
int pageNumber =1;
// Coordonnée X du coin inférieur gauche
Double LLX = 0.0;
// Y - coordonnée du coin inférieur gauche.
Double LLY = 0.0;
// X - coordonnée du coin supérieur droit.
Double URX = 800.0;
// Y - coordonnée du coin supérieur droit.
Double URY = 800.0;
// appeler l'API pour convertir un PDF en texte
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// instance de fichier TXT résultante
FileWriter myWriter = new FileWriter("filename.txt");
// Maintenant, parcourez l'occurrence de texte individuelle pour obtenir le résultat d'impression dans la console
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// écrire du contenu texte dans un fichier TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// fermer le gestionnaire TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
L’exemple de fichier PDF utilisé dans l’exemple ci-dessus peut être téléchargé depuis marketing.pdf et extracted.txt
Extraire le texte d’un PDF à l’aide des commandes cURL
Les API REST sont facilement accessibles via les commandes cURL, donc dans cette section, nous allons explorer la possibilité d’extraire le contenu textuel du PDF à l’aide des commandes cURL. Donc, comme condition préalable, nous devons d’abord générer un jeton d’accès JWT (basé sur les informations d’identification du client) lors de l’exécution de la commande suivante.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Une fois que nous avons le jeton JWT, nous devons exécuter la commande suivante pour extraire toutes les occurrences de texte dans le document PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Conclusion
Cet article a expliqué en détail comment convertir un PDF en TXT à l’aide de Java Cloud SDK. Dans le même temps, nous avons également exploré les options d’extraction de texte à partir de PDF à l’aide des commandes cURL. Ainsi, avec la flexibilité de traverser plusieurs pages PDF, nous obtenons un contrôle sur l’endroit où extraire le contenu. Nous vous recommandons fortement d’explorer le produit Documentation pour en savoir plus sur les autres fonctionnalités intéressantes offertes par l’API Java Cloud. De plus, comme tous nos SDK Cloud sont publiés sous licence MIT, vous pouvez envisager de télécharger le code source complet à partir de GitHub et de le modifier selon vos besoins. En cas de problème, vous pouvez envisager de nous contacter pour une résolution rapide via le [forum de support produit] gratuit 9.
Articles Liés
Veuillez visiter les liens suivants pour en savoir plus sur :