extraire le texte du PDF

Extraire le texte d’un PDF en Java

Nous savons tous que les fichiers PDF sont l’un des formats numériques les plus importants et les plus largement utilisés pour présenter et échanger des documents de manière fiable, indépendamment du logiciel, du matériel ou du système d’exploitation. Cependant, dans certains scénarios, nous pourrions être intéressés d’obtenir un extrait de fichiers PDF volumineux. Ou, nous pouvons avoir besoin d’enregistrer le PDF en texte en ligne. Donc, dans cet article, nous allons explorer les détails sur la façon de développer un convertisseur PDF en texte à l’aide de l’API Java REST.

API du générateur de PDF

Obtenez l’effet de levier pour générer des documents PDF à l’aide de modèles ou à partir de zéro à l’aide de notre API REST. Dans le même temps, l’API vous permet également d’éditer et de transformer les fichiers PDF en d’autres formats pris en charge. Vous pouvez également profiter des avantages de l’extraction de texte à partir d’un PDF, du décryptage et de la fusion de fichiers PDF à l’aide de Java Cloud SDK. Maintenant, pour utiliser le Aspose.PDF Cloud SDK for Java, nous devons ajouter sa référence dans notre application Java en incluant les détails suivants dans pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Après l’installation, nous devons créer un compte gratuit sur Cloud Dashboard et obtenir des informations d’identification client personnalisées.

Extraire le texte d’un PDF en utilisant Java

Explorons les détails pour extraire du texte d’un PDF à l’aide du SDK cloud Java. Dans cet exemple, nous allons utiliser l’entrée suivante PdfWithTable.pdf dossier.

pdf en texte ocr

Image 1 :- Fichier d’entrée pour l’extraction de PDF en texte.

pdf en texte ocr

Image 2 :- Extraire le texte de l’aperçu PDF

// pour plus d'exemples, veuillez visiter https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Obtenez ClientID et ClientSecret à partir de https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // créer une instance de PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // nom du document PDF d'entrée
    String name = "PdfWithTable.pdf";
		        
    // lire le contenu du fichier PDF d'entrée
    File file = new File(name); 
    // télécharger le PDF sur le stockage en nuage
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Coordonnée X du coin inférieur gauche
    Double LLX = 500.0;
    // Y - coordonnée du coin inférieur gauche.
    Double LLY = 500.0;
    // X - coordonnée du coin supérieur droit.
    Double URX = 800.0;
    // Y - coordonnée du coin supérieur droit.
    Double URY = 800.0;
			       
    // appeler l'API pour convertir un PDF en texte
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Parcourir les occurrences de texte individuelles
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // écrire du contenu textuel dans la console
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Essayons maintenant de comprendre l’extrait de code spécifié ci-dessus :

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Créez une instance de PdfApi tout en transmettant les informations d’identification personnalisées en tant qu’arguments.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Lisez le PDF d’entrée à l’aide de l’objet File et téléchargez-le sur le stockage cloud à l’aide de la méthode uploadFile(…) de la classe PdfAPi. Veuillez noter que le fichier est téléchargé avec le nom utilisé dans la méthode uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Appelez maintenant la méthode getText(..) où nous spécifions le nom du fichier PDF d’entrée, les dimensions rectangulaires sur la page à partir desquelles nous devons extraire le contenu textuel et renvoyons le contenu extrait à l’objet TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Enfin, afin d’imprimer le contenu textuel extrait, nous allons parcourir toutes les TextOccurances et les afficher dans la console.

PDF en texte à l’aide des commandes cURL

Outre l’extrait de code Java, nous pouvons également effectuer une opération pdftotext à l’aide des commandes cURL. Désormais, l’une des conditions préalables à cette approche consiste à générer un jeton d’accès JWT (basé sur les informations d’identification du client) à l’aide de la commande suivante.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Une fois le JWT généré, veuillez exécuter la commande suivante pour extraire le texte du fichier PDF déjà disponible dans le stockage cloud.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Conseil rapide

Vous recherchez une application gratuite PDF to Text! Veuillez essayer d’utiliser notre Analyseur PDF.

Remarques finales

En conclusion, l’extraction de texte à partir de fichiers PDF à l’aide de Java peut être une solution puissante pour ceux qui cherchent à automatiser leurs besoins de traitement et d’analyse de données. Avec l’aide de ce guide, vous disposez désormais d’une base solide sur laquelle vous appuyer et pouvez facilement mettre en œuvre votre propre solution basée sur Java pour l’extraction de texte à partir de documents PDF. Que vous cherchiez à extraire du texte pour l’analyse de données, l’apprentissage automatique ou tout autre objectif, Java fournit une plate-forme flexible et fiable pour vos besoins. Alors allez-y et mettez vos compétences nouvellement acquises à l’épreuve !

Si vous souhaitez découvrir d’autres fonctionnalités intéressantes offertes par l’API, veuillez consulter la Documentation du produit. Enfin, si vous rencontrez un problème lors de l’utilisation de l’API, ou si vous avez une question connexe, n’hésitez pas à nous contacter via le [Forum de support produit] gratuit 9.

Articles Liés

Veuillez visiter les liens suivants pour en savoir plus sur :