PDF de imagen a PDF con capacidad de búsqueda

Convertir PDF de imagen a PDF con capacidad de búsqueda

Para el archivo a largo plazo de libros/documentos, uno de los enfoques más rápidos es escanearlos como imágenes. Además, en caso de que necesite conservarlas como folleto, todas las imágenes se pueden combinar en un documento PDF unificado. Pero, si un documento PDF se compone de imágenes, es realmente difícil copiar/extraer cualquier información textual para su posterior manipulación. Entonces, en este artículo, vamos a discutir los detalles sobre cómo OCR archivos PDF y cómo convertir PDF que no se pueden buscar en PDF con capacidad de búsqueda usando Java SDK en la nube.

OCR PDF SDK de Java

Para crear, manipular y transformar archivos PDF a una variedad de formatos compatibles, hemos desarrollado Aspose.PDF Cloud. Ahora, para implementar OCR PDF Free en la aplicación Java, debemos intentar usar Aspose.PDF Cloud SDK for Java, que es un contenedor alrededor de Java Cloud API. Ahora el primer paso en el uso de SDK es su instalación. Por lo tanto, agregue los siguientes detalles en pom.xml del proyecto de tipo de compilación maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Una vez que se haya agregado la referencia de JDK, cree una cuenta gratuita en Aspose Cloud. Inicie sesión con una cuenta recién creada y busque/cree el ID del cliente y el secreto del cliente en Cloud Dashboard. Estos detalles son necesarios en las secciones siguientes.

PDF escaneado a PDF con capacidad de búsqueda usando Java

Esta sección explica los detalles sobre cómo convertir un PDF escaneado a un PDF con capacidad de búsqueda usando un fragmento de código Java. Tenga en cuenta que Java Cloud SDK admite el reconocimiento de los siguientes idiomas: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra o su combinación, por ejemplo, eng,rus.

  • El primer paso es crear un objeto PdfApi que tome los detalles de ClientID y Client secret como argumentos.
  • En segundo lugar, cree una instancia de archivo para cargar PDF OCR
  • En tercer lugar, llame al método uploadFile(…) para cargar el PDF de entrada al almacenamiento en la nube
  • Dado que nuestra imagen PDF contiene texto en inglés, necesitamos crear un objeto de cadena que contenga el valor “eng”
  • Finalmente, llame al método putSearchableDocument(…) que requiere la entrada de PDF y código de idioma como argumentos. El PDF buscable resultante se almacena en el mismo almacenamiento en la nube
try
    {
    // Obtenga ClientID y ClientSecret de https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // instancia createPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // imagen de entrada documento PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Cargue el archivo desde el sistema local
    File file = new File(name);
    // sube el archivo al almacenamiento en la nube
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // los idiomas utilizados en la imagen PDF
    String lang = "eng";
	    				
    //  realizar el OCR en un documento PDF de imagen
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // mensaje de éxito de impresión
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
PDF de imagen a PDF con capacidad de búsqueda

Imagen 1: - Vista previa de PDF con capacidad de búsqueda

El PDF escaneado utilizado en el ejemplo anterior se puede descargar de BusinessReport.pdf y el PDF de búsqueda resultante de Converted.pdf

OCR en línea usando comandos cURL

Los comandos cURL se encuentran entre los enfoques convenientes para acceder a las API REST a través de la terminal de línea de comandos. Entonces, en esta sección, vamos a usar los comandos cURL para OCR en línea. Ahora, como requisito previo, primero debemos generar un token de acceso JWT (basado en las credenciales del cliente) mientras ejecutamos el siguiente comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Una vez que tengamos el token JWT, utilice el siguiente comando para realizar OCR en línea y convertir la imagen PDF en un documento PDF con capacidad de búsqueda. El archivo resultante se almacena en el almacenamiento en la nube.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusión

En este artículo, hemos discutido algunos pasos simples pero sorprendentes para convertir PDF de imagen a PDF con capacidad de búsqueda usando Java Cloud SDK. Por lo tanto, tenemos la opción de usar un fragmento de código Java o los comandos cURL para lograr OCR PDF. Aparte de este enfoque, puede considerar acceder a la API dentro del navegador web a través de interfaz swagger. Además, como nuestros SDK se crean con una licencia MIT, el código fuente completo se puede descargar desde GitHub. En caso de que encuentre algún problema al usar las API, no dude en comunicarse con nosotros a través del foro de soporte del producto.

Artículos relacionados

Recomendamos encarecidamente visitar los siguientes enlaces para obtener más información sobre: