Une approche rapide et facile pour extraire des pages de documents Word à l’aide du SDK Python.

Diviser un document Word | Extraire des pages d’un document Word en tant que fichier séparé
Dans le domaine de la gestion de documents, il est souvent nécessaire de diviser, de séparer ou d’extraire des sections spécifiques d’un document Word. Qu’il s’agisse de documents de recherche approfondis, de rapports complets ou de longs manuscrits, la tâche consistant à les décomposer en parties plus faciles à gérer peut être à la fois longue et difficile. Dans cet article, nous allons explorer les étapes à suivre pour répondre à cette exigence avec Python Cloud SDK, vous permettant de rationaliser vos tâches de gestion de documents et de travailler plus efficacement.
- API de traitement de texte
- Diviser des pages dans un document Word à l’aide de Python
- Diviser le document en fonction des pages sélectionnées
- Extraire des pages d’un document Word à l’aide des commandes cURL
API de traitement de texte
Aspose.Words Cloud est notre solution dédiée au traitement MS Word (DOCX, DOC, DOT, RTF, DOCM) ou OpenDocument (ODT, OTT).Aucun logiciel tiers ni aucune automatisation MS Office ne sont nécessaires pour traiter les documents Word. Appelez simplement les API REST pour répondre à vos besoins. Étant donné que les API sont basées sur REST, vous pouvez y accéder sur n’importe quelle plate-forme, y compris les ordinateurs de bureau, le Web, les applications mobiles, etc. Maintenant, conformément à la portée de cet article, nous allons discuter des détails de la façon de diviser les pages d’un fichier Word en un document Word individuel. L’API offre également la flexibilité de personnaliser l’opération de fractionnement, c’est-à-dire de diviser chaque page, paire et impaire, par le nombre de pages, par plage de pages.
Afin de faciliter encore plus la tâche de nos clients, nous avons créé Aspose.Words Cloud SDK for Python, qui est un wrapper autour de Cloud API, afin que vous puissiez profiter de tous les avantages du traitement de documents Word dans votre langage de programmation préféré. Avant de continuer, la première étape consiste donc à installer le SDK sur le système local. Il est disponible en téléchargement sur PIP et GitHub. Exécutez la commande suivante sur le terminal de ligne de commande pour installer le SDK :
pip install aspose-words-cloud
Si vous utilisez Visual Studio comme IDE, vous pouvez ajouter directement la référence du SDK dans le projet.
Cliquez sur l’option Affichage ->Autres fenêtres ->Environnements Python. Comme indiqué ci-dessous.

Image 1 : Option de menu Environnement Python.
Saisissez aspose-word-cloud dans le champ Packages de la fenêtre Environnements Python. Cliquez ensuite sur le lien Installer aspose-word-cloud (21.11.0).Le numéro de version peut changer en fonction de la version la plus récente/actuelle. Voir l’image ci-dessous.

Image 2 : - package Python aspose-words-cloud.
Diviser des pages dans un document Word à l’aide de Python
Veuillez suivre les instructions ci-dessous pour diviser toutes les pages d’un document Word déjà disponible dans le stockage cloud.
- Tout d’abord, nous devons initialiser un objet de WordsApi tout en passant l’ID client et le secret client comme arguments.
- Deuxièmement, spécifiez le nom du fichier Word d’entrée, le format de sortie résultant, le nom du fichier résultant et le paramètre pour archiver la sortie au format zip.
- Téléchargez le document Word d’entrée vers le stockage cloud à l’aide de l’objet UploadFileRequest.
- Créez maintenant une instance de SplitDocumentRequest tout en transmettant les détails définis à la deuxième étape.
- Enfin, appelez la méthode splitdocument(…) de la classe WordsApi pour diviser les documents Word. Les fichiers résultants sont enregistrés dans un stockage cloud mappé.
try:
# créer une instance de WordsApi
words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")
# Nom du document Word d'entrée
inputFileName = 'source.doc'
# format de fichier résultant
resultantFormat = 'DOCX'
# Nom du document résultant après l'opération. Si ce paramètre est omis
# le fichier résultant sera alors enregistré avec le nom du document d'entrée
resultantFile = 'Split-File'
# L'indicateur indiquant s'il faut compresser la sortie.
zipOutput = 'false'
# Télécharger le document Word source vers le stockage cloud
words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))
# Créer un objet pour diviser le document
request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
None, resultantFile,None, None, zipOutput, None)
# lancer l'opération Word Split
result = words_api.split_document(request)
# imprimer un message dans la console (facultatif)
print('Document Split process completed successfully !')
except ApiException as e:
print("Exception while calling WordsApi: {0}".format(e))

Image 3 : Aperçu de l’opération de fractionnement de document.
Diviser le document en fonction des pages sélectionnées
Dans cette section, nous allons discuter des détails sur la façon de diviser un document en fonction des pages sélectionnées et d’enregistrer la sortie sous forme d’archive ZIP. L’extrait de code est presque le même que celui partagé ci-dessus, sauf que nous devons spécifier la valeur Page From, Page To et True pour que la sortie soit archivée.
try:
# créer une instance de WordsApi
words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")
# Nom du document Word d'entrée
inputFileName = 'source.doc'
# format de fichier résultant
resultantFormat = 'DOCX'
# Nom du document résultant après l'opération. Si ce paramètre est omis
# alors le fichier résultant sera enregistré avec le nom du document d'entrée
resultantFile = 'SplitOutput'
# Le drapeau indiquant la sortie doit être dans l'archive ZIP.
zipOutput = 'false'
# Télécharger le document Word source vers le stockage cloud
words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))
# Créer un objet pour diviser le document
request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
None, resultantFile,pageFrom, pageTo, zipOutput, None)
# lancer l'opération Word Split
result = words_api.split_document(request)
# imprimer un message dans la console (facultatif)
print('Document Split process completed successfully !')
except ApiException as e:
print("Exception while calling WordsApi: {0}".format(e))

Image 4 : Aperçu de l’opération de fractionnement de document pour les pages sélectionnées.
Extraire des pages d’un document Word à l’aide des commandes cURL
Comme d’autres API REST, Aspose.Words Cloud est également accessible via des commandes cURL dans le terminal de ligne de commande. Cependant, avant de continuer, nous devons d’abord générer un jeton d’accès JWT basé sur les informations d’identification du client.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Une fois le jeton généré, veuillez exécuter la commande suivante pour extraire les pages du document Word et enregistrer la sortie dans le stockage Cloud.
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/source.doc/split?format=DOCX&destFileName=Split-File&from=2&to=4&zipOutput=false" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>"
Conclusion
Dans cet article, nous avons exploré la possibilité de créer un séparateur de documents capable de diviser un document Word en fichiers de pages individuels à l’aide du SDK Python. De plus, selon vos besoins, vous pouvez utiliser le SDK Python ou extraire des pages d’un document Word à l’aide des commandes cURL. Veuillez noter que nous croyons en la croissance collective et à la collaboration. Par conséquent, nos SDK sont développés conformément à la licence MIT et leur code source complet est disponible en téléchargement sur Github. Si vous en avez besoin, vous pouvez télécharger et modifier le code selon vos besoins. Si vous rencontrez des problèmes ou si vous avez d’autres questions, n’hésitez pas à nous contacter via le Forum d’assistance produit gratuit.
Articles connexes
Nous vous recommandons de visiter les liens suivants pour en savoir plus sur :