PDF image en PDF consultable

Convertir un PDF image en PDF consultable

Pour l’archivage à long terme de livres/documents, l’une des approches les plus rapides consiste à les numériser sous forme d’images. De plus, au cas où vous auriez besoin de les conserver sous forme de livret, toutes les images peuvent être combinées en un document PDF unifié. Mais, si un document PDF est composé d’images, il est vraiment difficile de copier/extraire toute information textuelle pour une manipulation ultérieure. Ainsi, dans cet article, nous allons discuter des détails sur la façon d’effectuer l’OCR des fichiers PDF et de convertir un PDF non interrogeable en PDF interrogeable à l’aide du SDK Java cloud.

OCR PDF Java SDK

Afin de créer, manipuler et transformer des fichiers PDF en une variété de formats pris en charge, nous avons développé Aspose.PDF Cloud. Maintenant, pour implémenter OCR PDF Free dans l’application Java, nous devons essayer d’utiliser Aspose.PDF Cloud SDK for Java qui est un wrapper autour de l’API Java Cloud. Maintenant, la première étape de l’utilisation du SDK est son installation. Veuillez donc ajouter les détails suivants dans pom.xml du projet de type de construction maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Une fois la référence JDK ajoutée, veuillez créer un compte gratuit sur Aspose Cloud. Connectez-vous à l’aide d’un compte nouvellement créé et recherchez/créez un ID client et un secret client sur Cloud Dashboard. Ces détails sont requis dans les sections suivantes.

PDF numérisé en PDF consultable à l’aide de Java

Cette section explique en détail comment convertir un PDF numérisé en PDF consultable à l’aide d’un extrait de code Java. Veuillez noter que Java Cloud SDK prend en charge la reconnaissance des langues suivantes : eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , ni, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra ou leur combinaison, par exemple eng, rus.

  • La première étape consiste à créer un objet PdfApi qui prend les détails ClientID et Client secret comme arguments
  • Deuxièmement, créez une instance de fichier pour charger le PDF OCR
  • Troisièmement, appelez la méthode uploadFile(…) pour télécharger le PDF d’entrée vers le stockage en nuage
  • Étant donné que notre image PDF contient du texte anglais, nous devons donc créer un objet chaîne contenant la valeur “eng”
  • Enfin, appelez la méthode putSearchableDocument(…) nécessitant l’entrée d’un PDF et d’un code de langue comme arguments. Le PDF consultable résultant est stocké dans le même stockage cloud
try
    {
    // Obtenez ClientID et ClientSecret à partir de https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // instance createPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // image d'entrée document PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Charger le fichier depuis le système local
    File file = new File(name);
    // télécharger le fichier sur le stockage en nuage
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // les langues utilisées dans l'image PDF
    String lang = "eng";
	    				
    //  effectuer l'OCR sur un document PDF image
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // imprimer le message de réussite
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
PDF image en PDF consultable

Image1 :- Aperçu PDF consultable

Le PDF scanné utilisé dans l’exemple ci-dessus peut être téléchargé à partir de BusinessReport.pdf et le PDF consultable résultant à partir de Converted.pdf

OCR en ligne à l’aide des commandes cURL

Les commandes cURL font partie des approches pratiques pour accéder aux API REST via un terminal de ligne de commande. Donc, dans cette section, nous allons utiliser les commandes cURL pour l’OCR en ligne. Maintenant, comme condition préalable, nous devons d’abord générer un jeton d’accès JWT (basé sur les informations d’identification du client) lors de l’exécution de la commande suivante.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Une fois que nous avons le jeton JWT, veuillez utiliser la commande suivante pour effectuer l’OCR en ligne et convertir le PDF image en document PDF consultable. Le fichier résultant est ensuite stocké dans le stockage en nuage.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusion

Dans cet article, nous avons discuté de quelques étapes simples mais étonnantes pour convertir un PDF image en PDF consultable à l’aide de Java Cloud SDK. Nous avons donc la possibilité d’utiliser un extrait de code Java ou des commandes cURL pour effectuer un PDF OCR. En dehors de cette approche, vous pouvez envisager d’accéder à l’API dans le navigateur Web via l’interface swagger. De plus, comme nos SDK sont construits sous une licence MIT, le code source complet peut être téléchargé depuis GitHub. Si vous rencontrez des problèmes lors de l’utilisation des API, n’hésitez pas à nous contacter via le forum d’assistance produit.

Articles Liés

Nous vous recommandons vivement de visiter les liens suivants pour en savoir plus sur :