PDF en texte

Comment convertir un PDF en texte en Python

Le monde numérique actuel regorge d’informations et la capacité d’extraire du texte à partir de documents PDF est devenue non seulement pratique, mais aussi nécessaire. Imaginez que vous parcourez un long fichier PDF à la recherche d’informations essentielles à citer dans le cadre de vos recherches, ou que vous gérez un référentiel de documents et que vous cherchez à extraire des données à des fins d’analyse. Dans ces scénarios et bien d’autres, la capacité à convertir sans effort le contenu PDF en texte brut apparaît comme une révolution. Cet article explore l’objectif profond et les avantages indéniables de l’extraction de texte à partir de PDF à l’aide de Python Cloud SDK. Cette transformation permet aux individus et aux organisations de gérer, d’analyser et d’utiliser efficacement le contenu numérique dans un monde où l’information est d’une importance capitale.

API REST de conversion PDF en texte

L’extraction de texte à partir de documents PDF est rendue simple et efficace grâce au SDK Cloud Aspose.PDF for Python. Ce SDK polyvalent vous permet de convertir sans effort le contenu PDF en texte brut, en déverrouillant les informations stockées dans ces documents numériques.

Le SDK Cloud est disponible en téléchargement gratuit sur les référentiels PIP et GitHub. Exécutez maintenant la commande suivante sur le terminal/l’invite de commande pour installer la dernière version du SDK :

 pip install asposepdfcloud

Si vous utilisez PyCharm IDE, vous pouvez ajouter directement le SDK en tant que dépendance dans votre projet.

Fichier ->Paramètres ->Projet ->Interpréteur Python ->asposepdfcloud

Après l’installation, la prochaine étape importante est un abonnement gratuit à nos services cloud via tableau de bord Aspose.Cloud. Si vous avez un compte GitHub ou Google, inscrivez-vous simplement ou cliquez sur le bouton Créer un nouveau compte. Connectez-vous maintenant au tableau de bord et obtenez vos informations personnalisées d’identifiant client et de secret client.

Extraire du texte d’un PDF en Python

Veuillez suivre les instructions ci-dessous pour extraire du texte à partir de documents PDF à l’aide du SDK Python.

  • Tout d’abord, créez une instance de la classe ApiClient tout en fournissant l’ID client et le secret client comme arguments.
  • Deuxièmement, créez une instance de la classe PdfApi qui prend l’objet ApiClient comme argument d’entrée.
  • Appelez maintenant la méthode gettext(…) tout en fournissant les coordonnées LLX, LLY, URX et URY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # créer une instance PdfApi en passant PdfApiClient comme argument
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Appeler la méthode pour extraire le texte
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # imprimer un message dans la console (facultatif)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Aperçu de la conversion PDF en texte

Image 1 : Aperçu PDF en texte.

Si vous avez besoin d’extraire le texte d’une page spécifique du document, essayez d’utiliser l’API GetPageText qui prend pageNumber comme argument.

Conversion de PDF en texte à l’aide de la commande cURL

Découvrez la transformation transparente du contenu PDF en texte brut grâce à la puissante combinaison des commandes Aspose.PDF Cloud et cURL. Cette intégration dynamique simplifie non seulement la conversion de PDF en texte, mais offre également plusieurs avantages qui améliorent votre expérience de gestion de documents et d’extraction de texte.

Veuillez noter qu’une condition préalable à cette approche est de générer un jeton Web JSON (JWT) basé sur vos informations d’identification client. Cette étape est obligatoire car nos API ne sont accessibles qu’aux utilisateurs enregistrés. Veuillez exécuter la commande suivante pour générer le jeton JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Une fois que nous avons le jeton JWT, nous pouvons utiliser la commande suivante pour convertir le PDF en texte en extrayant tout le contenu textuel. La sortie est enregistrée sous forme de fichier texte brut sur le lecteur local.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

L’échantillon utilisé dans l’exemple ci-dessus peut être téléchargé à partir de awesomeTable.pdf.

Conclusion

L’extraction de texte à partir de documents PDF est une exigence essentielle dans un monde inondé d’informations numériques. Dans notre exploration de ce processus, nous avons examiné deux voies dynamiques : l’une via le SDK polyvalent Aspose.PDF Cloud pour Python, et l’autre via la puissante combinaison des commandes Aspose.PDF Cloud et cURL.

Ces deux approches comblent le fossé entre le contenu PDF statique et le texte dynamique, améliorant ainsi la façon dont nous gérons, analysons et utilisons les informations numériques. Que vous optiez pour la sophistication du SDK ou la simplicité des commandes cURL, les deux voies mènent à une conversion efficace de PDF en texte, vous permettant de débloquer la richesse des données textuelles cachées dans les documents PDF.

Articles connexes

Nous vous recommandons également de visiter les liens suivants pour en savoir plus sur :