
Les images sont l’un des composants essentiels du partage de données et certaines applications restituent directement le contenu source au format PDF. Mais cette commodité augmente le coût lorsque nous devons rechercher certains contenus à l’intérieur du document. Dans ce scénario, il faut parcourir manuellement l’ensemble du document pour trouver les informations pertinentes. L’approche recommandée est donc toujours de générer des fichiers consultables et faciles à gérer. Cependant, si vous avez reçu des fichiers PDF dont vous ne pouvez pas contrôler le format des documents à la source, donc pour l’archivage et l’indexation des données, nous devons convertir ces documents dans un format consultable. Dans cet article, nous allons discuter des détails sur la façon d’effectuer une reconnaissance optique de caractères (OCR) PDF en ligne et de convertir des fichiers PDF numérisés/images en documents PDF consultables/textes.
- API de traitement PDF
- PDF OCR à l’aide de la commande cURL
- Convertir un PDF numérisé en PDF consultable en Java
API de traitement PDF
Aspose.PDF Cloud est notre API primée de création et de manipulation de PDF basée sur l’architecture REST. En utilisant la même API, vous pouvez effectuer diverses opérations telles que Convertir EPUB en PDF, Convertir HTML en PDF, Convertir XPS en PDF, Convertir DOC et Doc X en PDF, Convertir XPS en PDF, insérer des images dans des fichiers PDF nouveaux ou existants, etc. Toutes ces opérations sont effectuées dans le cloud et, par conséquent, l’API est accessible depuis n’importe quelle plateforme.
PDF OCR à l’aide de la commande cURL
Les commandes cURL sont un moyen simple d’accéder à Aspose.PDF Cloud via le terminal de ligne de commande. Mais avant d’accéder aux API, vous devez d’abord visiter le tableau de bord Aspose.Cloud et si vous avez un compte GitHub ou Google, inscrivez-vous simplement. Sinon, cliquez sur le bouton Créer un nouveau compte et fournissez les informations requises. Connectez-vous maintenant au tableau de bord à l’aide des informations d’identification et développez la section Applications du tableau de bord et faites défiler vers le bas jusqu’à la section Informations d’identification du client pour voir les détails de l’ID client et du secret client.
L’étape suivante consiste maintenant à générer un jeton Web JSON (JWT) afin que les API soient accessibles via l’invite de commande.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Une fois que nous avons le jeton JWT, exécutez la commande cURL suivante dans le terminal de ligne de commande.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Convertir un PDF numérisé en PDF consultable en Java
Afin de faciliter la tâche de nos programmeurs Java, un wrapper autour d’Aspose.PDF Cloud a été créé afin que toutes les fonctionnalités de Cloud API soient facilement accessibles dans le code Java. De même, pour effectuer l’opération OCR sur un PDF numérisé, nous devons utiliser Aspose.PDF Cloud SDK for Java.
La première étape consiste donc à installer le SKD sur le système. Le SDK Cloud est disponible en téléchargement sur Maven et GitHub. Ajoutez maintenant les détails suivants dans votre fichier pom.xml pour télécharger et utiliser Aspose.Pdf.jar dans votre projet de build Maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.1.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Pour plus d’informations, veuillez consulter Comment installer les SDK Aspose.Cloud.
Les étapes ci-dessous définissent le processus d’opération COR sur un fichier PDF image.
- La première étape consiste à créer un objet PdfApi tout en transmettant les détails ClientID et Client secret (disponibles dans le tableau de bord Aspose.Cloud).
- Créez une instance de fichier et transmettez l’emplacement du fichier image comme argument.
- Appelez la méthode uploadFile(…) et transmettez le document PDF et l’instance de fichier comme arguments.
- L’étape suivante consiste à créer une instance de chaîne et à définir sa valeur sur le code de langue contenu dans le fichier source, c’est-à-dire « rus, eng ».
- Enfin, appelez la méthode putSearchableDocument(…) de PdfApi et transmettez le nom du fichier PDF d’entrée et le code de langue comme arguments.
langues pour le moteur OCR. valeurs prises en charge : eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra ou leur combinaison, par exemple eng, rus.
// Obtenez ClientID et ClientSecret depuis https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
// instance createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// document PDF d'entrée
String name = "ocrscan.pdf";
// Charger le fichier à partir du système local
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// télécharger le fichier sur le stockage cloud
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// les langues utilisées dans le fichier image
String lang = "rus,eng";
// effectuer l'OCR sur un document PDF image
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

Image 1 : Aperçu de la sortie OCR.
Les fichiers PDF d’exemple utilisés dans l’exemple ci-dessus peuvent être téléchargés à partir des liens suivants :
Conclusion
Dans cet article, nous avons appris quelques étapes simples sur la façon d’effectuer une opération OCR PDF en ligne et de convertir le document PDF numérisé en un document PDF consultable. Outre les opérations OCR, le SDK est assez puissant et peut effectuer une variété d’autres opérations. Pour plus de détails, veuillez consulter Fonctionnalités Cloud Aspose.PDF.