Les fichiers PDF(Portable Document Format) sont parmi les formats les plus fiables et les plus utilisés pour le partage de documents sur différentes plateformes, garantissant une mise en page et une apparence cohérentes, quel que soit le logiciel ou l’appareil. Cependant, il existe des situations où les développeurs doivent extraire du texte des fichiers PDF de manière programmatique, comme pour analyser le contenu, indexer des documents ou convertir des PDF en formats de texte modifiables.
Dans cet article, nous allons explorer comment extraire du texte à partir de fichiers PDF et construire un convertisseur PDF en texte en utilisant l’API REST .NET, permettant une extraction de texte fluide et automatisée par le biais d’appels d’API REST.
- API de traitement PDF
- Effectuer la conversion PDF en texte en C#
- Extraire du texte d’un PDF en utilisant cURL
API de traitement des PDF
Exploitez la puissance de Aspose.PDF Cloud SDK for .NET pour extraire du texte des fichiers PDF de manière efficace. En plus de l’extraction de texte, le SDK vous permet de créer des documents PDF à partir de zéro ou de modèles, d’éditer des PDFs existants et de les convertir en d’autres formats pris en charge. Vous pouvez également effectuer des tâches telles que le décryptage, la fusion et la manipulation de fichiers PDF directement via l’API REST .NET.
Maintenant, pour commencer, nous devons installer le SDK dans notre projet .NET.
NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0
Nous devons également créer un compte gratuit sur Cloud Dashboard et obtenir nos identifiants client personnalisés.
Effectuer la conversion PDF en texte en C#
Veuillez suivre les étapes mentionnées ci-dessous pour extraire le texte d’un fichier PDF à l’aide de C# .NET.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Créer un objet de la classe PdfApi
où nous passons les informations d’identification du client obtenues ci-dessus comme arguments.
String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);
Lire le PDF d’entrée à partir du disque local et téléverser dans le stockage en nuage en utilisant la méthode UploadFile(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Nous devons spécifier la région dans le fichier PDF d’où nous devons extraire le contenu textuel en utilisant la méthode GetText(...)
.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Une fois que le contenu textuel a été extrait, soit nous pouvons l’enregistrer sur le disque local, soit l’imprimer dans la console.
// Pour plus d'exemples, veuillez visiter https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Obtenez les informations d'identification du client à partir de https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";
// créer un objet de PdfApi tout en passant les identifiants du client comme arguments
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Input PDF file name
String inputFile = "input.pdf";
// Charger le fichier PDF dans une instance de flux
var sourceFile = OpenRead(inputFile);
// Téléchargez le fichier PDF vers le stockage cloud.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// X-coordinate du coin inférieur gauche
Double LLX = 200.0;
// Coordonnée Y du coin inférieur gauche.
Double LLY = 200.0;
// X - coordonnée du coin supérieur droit.
Double URX = 600.0;
// Coordonnée Y du coin supérieur droit.
Double URY = 650.0;
// Appeler l'API pour extraire du texte à partir des coordonnées spécifiées
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Maintenant, parcourez chaque occurrence de texte et imprimez dans la console.
// Alternativement, nous pouvons également enregistrer la sortie directement dans un fichier .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Extraire du texte d’un PDF à l’aide de cURL
En plus d’utiliser des extraits de code .NET ou Java, vous pouvez également extraire du texte à partir de fichiers PDF en utilisant Aspose.PDF Cloud via des commandes cURL. Ainsi, dans cette approche, le prérequis est de générer un token d’accès JWT (basé sur vos identifiants clients), qui peut être obtenu en utilisant la commande suivante.
Étape 1. - Obtenir le token JWTAccess :
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Étape 1. - Extraire le texte du fichier PDF :
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
- Une fois la commande exécutée avec succès, le texte de la région rectangulaire spécifiée est extrait dans un fichier texte.
Application gratuite de parsing PDF
Si vous cherchez à tester les capacités de l’API sans aucune programmation ni commandes cURL, essayez d’utiliser notre application [Free PDF Parser] construite sur .NET REST APIs.

Remarques finales
Dans cet article, nous avons appris les détails sur la façon d’intégrer Aspose.PDF Cloud SDK pour .NET dans notre projet .NET pour des fins d’extraction de texte et en même temps, nous avons exploré l’option d’utiliser des commandes cURL pour effectuer l’extraction de texte PDF via l’interface de ligne de commande. Donc, que votre objectif soit l’analyse de données, l’apprentissage automatique ou d’autres fins d’automatisation, le SDK vous offre des outils fiables pour gérer le contenu PDF de manière efficace. Mettez ces compétences en pratique et rationalisez votre gestion de PDF comme un pro !
Matériel de lecture
Articles connexes
Nous recommandons également de visiter les liens suivants pour en savoir plus sur :