extraire le texte pdf

Extrayez le texte d’un PDF à l’aide de l’API .NET REST.

Les documents PDF sont devenus la norme en matière de partage et d’échange d’informations sur diverses plates-formes et appareils. Bien que les PDF offrent un format sécurisé et cohérent, extraire les données essentielles de ces documents peut s’avérer une tâche ardue, en particulier lorsqu’il s’agit de gros volumes d’informations. Que vous ayez besoin d’extraire du texte à des fins d’analyse, de saisie de données ou de manipulation de contenu, une solution d’extraction de texte fiable et efficace est cruciale. Dans cet article, nous plongeons dans le monde de l’extraction de texte à partir de fichiers PDF à l’aide de l’API .NET REST, optimisée par le robuste SDK Aspose.PDF Cloud.

API REST pour le traitement des PDF

Aspose.PDF Cloud SDK for .NET est une API robuste et conviviale qui simplifie l’extraction de texte à partir de PDF. L’une des fonctionnalités remarquables d’Aspose.PDF Cloud SDK pour .NET est sa capacité à gérer des structures PDF complexes et à extraire avec précision le texte de documents avec des mises en page diverses. Que le PDF contienne du texte, des images, des tableaux ou d’autres éléments complexes, l’API peut naviguer intelligemment dans le document et récupérer le contenu du texte avec précision. Par conséquent, les fonctionnalités puissantes, la précision et la facilité d’intégration en font un choix idéal pour extraire des données textuelles précieuses à partir de documents PDF dans leurs applications .NET.

Désormais, pour débuter avec cette fonctionnalité, la première étape consiste à ajouter la référence du SDK Cloud dans notre solution .NET. Alors, recherchez « Aspose.PDF-Cloud » dans le gestionnaire de packages NuGet et cliquez sur le bouton « Ajouter un package ». Deuxièmement, visitez le tableau de bord cloud et obtenez vos informations d’identification client personnalisées.

Extraire le texte PDF à l’aide de C# .NET

Dans cette section, nous allons explorer les détails pour extraire du texte d’un PDF par programmation.

// Pour des exemples complets et des fichiers de données, veuillez consulter 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Obtenez les informations d'identification du client sur https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// créer une instance de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Saisissez le nom du fichier PDF
String inputFile = "Binder1-1.pdf";
// Lire le contenu du fichier PDF dans l'instance de flux
var sourceFile = System.IO.File.OpenRead(inputFile);

// Télécharger le fichier PDF sur le stockage cloud
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Coordonnée X du coin inférieur gauche
Double LLX = 500.0;
// Y - coordonnée du coin inférieur gauche.
Double LLY = 500.0;
// X - coordonnée du coin supérieur droit.
Double URX = 800.0;
// Y - coordonnée du coin supérieur droit.
Double URY = 800.0;

// Appelez l'API pour extraire le texte de certaines coordonnées sur un document PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Parcourez les occurrences de texte individuelles
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // écrire du contenu textuel dans la console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Extraire le texte PDF

Aperçu du texte extrait du document PDF.

Vous trouverez ci-dessous les détails concernant l’extrait de code indiqué ci-dessus.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Tout d’abord, créez une instance de la classe PdfApi dans laquelle nous transmettons les informations d’identification du client comme arguments.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Chargez le contenu du fichier PDF d’entrée dans l’instance de streaming.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Téléchargez le document PDF sur le stockage cloud.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Appelez l’API pour extraire le texte du fichier PDF à certaines coordonnées de page.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Parcourez la liste contenant les occurrences de texte extraites et imprimez les instances de texte dans la console.

Analyser le texte d’un PDF à l’aide des commandes cURL

En utilisant les commandes cURL en combinaison avec l’API Aspose.PDF Cloud, vous pouvez extraire sans effort le contenu texte des fichiers PDF hébergés sur le stockage cloud. L’API prend en charge une variété de paramètres pour personnaliser le processus d’extraction, vous permettant de spécifier des coordonnées et d’autres options pour extraire du texte avec précision.

La première étape de cette approche consiste à générer un jeton d’accès JWT lors de l’exécution de la commande suivante.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Une fois le jeton JWT généré, veuillez exécuter la commande suivante pour extraire le texte du document PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Remplacez « inputPDF » par le nom du document PDF déjà disponible dans le stockage cloud et « accessToken » par le jeton JWT généré ci-dessus.

Conclusion

En conclusion, le SDK Aspose.PDF Cloud pour .NET et l’approche de commande cURL offrent des solutions efficaces et fiables pour extraire du texte à partir de documents PDF. Le SDK Aspose.PDF Cloud pour .NET fournit une API complète et conviviale pour les développeurs avec un large éventail de fonctionnalités, ce qui en fait un choix puissant pour intégrer l’extraction de texte PDF dans les applications .NET. D’autre part, l’approche de commande cURL offre une méthode flexible et indépendante de la plate-forme pour interagir avec l’API Aspose.PDF Cloud, ce qui en fait une excellente option pour les développeurs travaillant dans différents environnements et langages de programmation.

Liens utiles

Articles Liés

Nous vous recommandons fortement de visiter les blogs suivants :