PDF escaneado para búsqueda

Las imágenes son uno de los componentes integrales para compartir datos y algunas aplicaciones representan directamente el contenido de origen en formato PDF. Pero esta comodidad aumenta el costo cuando tenemos que buscar cierto contenido dentro del documento. En ese escenario, uno tiene que recorrer todo el documento manualmente para encontrar la información relevante. Por lo tanto, el enfoque recomendado es siempre generar archivos que se puedan buscar y sean fáciles de administrar. Sin embargo, si ha recibido los archivos PDF en los que no puede controlar el formato de los documentos en la fuente, entonces para el archivo e indexación de datos, necesitamos convertir dichos documentos a un formato que permita búsquedas. En este artículo, vamos a discutir los detalles sobre cómo realizar el OCR de PDF en línea y convertir archivos PDF escaneados / de imagen en documentos PDF que permitan búsquedas / de texto.

API de procesamiento de PDF

Aspose.PDF Cloud es nuestra galardonada API de creación y manipulación de archivos PDF basada en la arquitectura REST. Con la misma API, puede realizar una variedad de operaciones como Convertir EPUB a PDF, Convertir HTML a PDF, Convertir XPS a PDF, Convertir DOC y Doc X a PDF, Convertir XPS a PDF, insertar imágenes en archivos PDF nuevos o existentes, etc. Todas estas operaciones se realizan en la nube y, por lo tanto, se puede acceder a la API desde cualquier plataforma.

OCR de PDF con el comando cURL

Los comandos cURL son una forma sencilla de acceder a Aspose.PDF Cloud a través de la terminal de línea de comandos. Pero antes de acceder a las API, primero debe visitar el panel de control de Aspose.Cloud y, si tiene una cuenta de GitHub o Google, simplemente regístrese. De lo contrario, haga clic en el botón Crear una nueva cuenta y proporcione la información requerida. Ahora inicie sesión en el panel de control con credenciales y expanda la sección Aplicaciones desde el panel de control y desplácese hacia abajo hasta la sección Credenciales del cliente para ver los detalles de ID de cliente y Secreto de cliente.

Ahora el siguiente paso es generar JSON Web Token (JWT) para que las API sean accesibles a través del símbolo del sistema.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Una vez que tengamos el token JWT, ejecute el siguiente comando cURL en la terminal de línea de comandos.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Convertir un PDF escaneado en un archivo que permita realizar búsquedas en Java

Para facilitar el trabajo a nuestros programadores Java, se ha creado un contenedor alrededor de Aspose.PDF Cloud para que se pueda acceder fácilmente a todas las funciones de Cloud API en código Java. De manera similar, para realizar la operación de OCR en un PDF escaneado, necesitamos usar Aspose.PDF Cloud SDK para Java.

El primer paso es instalar SKD en el sistema. El SDK de Cloud está disponible para descargar en Maven y GitHub. Ahora, agregue los siguientes detalles en su archivo pom.xml para descargar y usar Aspose.Pdf.jar en su proyecto de compilación de Maven.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

Para obtener más información, visita Cómo instalar los SDK de Aspose.Cloud.

Los siguientes pasos definen el proceso de operación COR en un archivo PDF de imagen.

  • El primer paso es crear un objeto PdfApi mientras se pasan los detalles de ClientID y Client secret (disponibles en el panel de Aspose.Cloud).
  • Crea una instancia de archivo y pasa la ubicación del archivo de imagen como argumento.
  • Llame al método uploadFile(…) y pase el documento PDF y la instancia de archivo como argumentos.
  • El siguiente paso es crear una instancia de cadena y establecer su valor en el código de idioma que contiene el archivo fuente, es decir, “rus,eng”.
  • Por último, llame al método putSearchableDocument(…) de PdfApi y pase el nombre del archivo PDF de entrada y el código de idioma como argumentos.

idiomas para el motor de OCR. Valores admitidos: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra o su combinación, por ejemplo, eng, rus.

// Obtenga ClientID y ClientSecret desde https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// instancia createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// documento PDF de entrada
String name = "ocrscan.pdf";	        
			    
// Cargar el archivo desde el sistema local
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// Sube el archivo al almacenamiento en la nube
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// los idiomas utilizados en el archivo de imagen
String lang = "rus,eng";
				
//  Realizar el OCR en un documento PDF de imagen
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());
Vista previa del resultado del OCR

Imagen 1: Vista previa de salida de OCR.

Los archivos PDF de muestra utilizados en el ejemplo anterior se pueden descargar desde los siguientes enlaces:

Conclusión

En este artículo, hemos aprendido algunos pasos sencillos sobre cómo realizar una operación de OCR de PDF en línea y convertir el documento PDF escaneado en un documento PDF con capacidad de búsqueda. Además de las operaciones de OCR, el SDK es bastante potente y puede realizar una variedad de otras operaciones. Para obtener más detalles, visite Funciones de Aspose.PDF Cloud.