Extraer imágenes de PDF

Los archivos PDF se utilizan ampliamente para almacenar y compartir varios tipos de documentos, incluidos informes, presentaciones y folletos. Sin embargo, cuando se trata de extraer imágenes de estos archivos, el proceso puede llevar mucho tiempo y ser engorroso. Ya sea que necesite extraer imágenes para su posterior edición, análisis o inclusión en sus propios proyectos, es fundamental contar con un enfoque confiable y eficiente. Por lo tanto, aprovechar las capacidades de un SDK de programación puede agilizar el proceso de extracción de imágenes y ahorrar tiempo y esfuerzo valiosos. Ahora, en este artículo, exploraremos los detalles sobre cómo extraer imágenes de archivos PDF utilizando Python Cloud SDK y desbloquear un nivel completamente nuevo de productividad y conveniencia.

SDK de procesamiento de PDF en la nube

Cuando se trata de extraer imágenes de archivos PDF con Python, la Aspose.PDF Cloud API es una herramienta potente y versátil. Con Aspose.PDF Cloud SDK for Python, no solo puede extraer imágenes de archivos PDF, sino que también puede realizar otras tareas, como convertir archivos PDF a diferentes formatos, agregar anotaciones, fusionar o dividir documentos PDF y mucho más. Además, el SDK ofrece un conjunto completo de API que le permiten manipular archivos PDF de manera programática, lo que le permite ahorrar tiempo y esfuerzo.

Ahora, para instalar el SDK, descárguelo del repositorio PIP o GitHub. Por lo tanto, ejecute el siguiente comando en la terminal o en el símbolo del sistema para instalar la última versión del SDK en el sistema.

 pip install asposepdfcloud

IDE de PyCharm

Si está utilizando PyCharm IDE, puede agregar directamente el SDK como una dependencia en su proyecto.

Archivo ->Configuración ->Proyecto ->Intérprete de Python ->asposepdfcloud

Configuración de PyCharm

Imagen 1: Opción de configuración de PyCharm.

Paquete Python Aspose.PDF

Imagen 2:- Paquete Python en la nube Aspose.PDF.

Otro paso importante es crear una cuenta gratuita en Cloud Dashboard usando GitHub o una cuenta de Google. O bien, haga clic en el botón Crear una nueva cuenta y proporcione la información requerida para obtener sus credenciales de cliente personalizadas.

Credenciales del cliente

Imagen 3: Panel de Credenciales del cliente en la nube.

Extraer imágenes de un PDF en Python

Siga los pasos que se detallan a continuación para extraer imágenes de documentos PDF en formato JPEG y guárdelos en la carpeta de almacenamiento en la nube.

  • En primer lugar, cree una instancia de la clase ApiClient y proporcione el ID de cliente y el secreto del cliente como argumentos.
  • En segundo lugar, cree una instancia de la clase PdfApi que tome el objeto ApiClient como argumento.
  • Ahora, llame al método putimagesextractasjpeg(…) que toma el nombre del PDF de entrada, el número de página del PDF respectivo y un parámetro opcional que especifica la carpeta de destino para guardar las imágenes extraídas.
def extractImages():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # Crea una instancia de PdfApi mientras pasas PdfApiClient como argumento
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'URL2PDF.pdf'

        # Llamar a la API para extraer imágenes como JPEG y guardarlas en la carpeta ExtractedImages en el almacenamiento en la nube
        response = pdf_api.put_images_extract_as_jpeg(name = input_file, page_number= 3, dest_folder = 'ExtractedImages')
        
        print(response)
        # Imprimir mensaje en la consola (opcional)
        print('Images successfully extracted from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

La API también admite dos parámetros opcionales para especificar el ancho y la altura de las imágenes extraídas.

título

Image 4:- Preview of extracted images.

En caso de que necesite extraer imágenes en otros formatos, puede considerar utilizar las siguientes API:

Descargar imágenes PDF con el comando cURL

También se pueden extraer imágenes de archivos PDF mediante la API de Aspose.PDF Cloud con comandos cURL. Al utilizar comandos cURL, puede realizar solicitudes HTTP a los puntos finales de la API y extraer imágenes de archivos PDF con facilidad. Este enfoque proporciona flexibilidad y comodidad, ya que puede integrar la funcionalidad de extracción de imágenes directamente en sus scripts o aplicaciones. Además, también obtiene la capacidad de acceder a las API REST a través de la terminal de línea de comandos en cualquier plataforma, es decir, Windows, Linux, macOS u otros sistemas operativos.

En esta sección, vamos a utilizar los comandos cURL para extraer imágenes en formato PNG y guardar el resultado en un almacenamiento en la nube. Por lo tanto, el primer paso es generar un token web JSON (JWT) ejecutando el siguiente comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ahora, ejecute el siguiente comando para extraer las imágenes únicamente de la tercera página del documento PDF. Las imágenes se extraen en formato PNG.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/URL2PDF.pdf/pages/3/images/extract/png?width=0&height=0&destFolder=ExtractedImages" \
-H  "Accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-d{}

El archivo PDF de muestra utilizado en el ejemplo anterior se puede descargar desde URL2PDF.pdf.

Conclusión

En conclusión, la extracción de imágenes de archivos PDF es una capacidad valiosa que se puede lograr utilizando tanto el SDK de Aspose.PDF Cloud para Python como los comandos cURL. Ya sea que prefiera la conveniencia y simplicidad de la programación Python o la versatilidad de los comandos cURL, Aspose.PDF Cloud proporciona una API sólida para realizar esta tarea. Al aprovechar el poder de la nube, puede extraer imágenes de documentos PDF con facilidad, lo que mejora su flujo de trabajo. No obstante, con Aspose.PDF Cloud, tiene la flexibilidad de elegir el enfoque que mejor se adapte a sus requisitos e integrar sin problemas la funcionalidad de extracción de imágenes en sus proyectos.

Recursos útiles

Artículos relacionados

También recomendamos visitar los siguientes enlaces para conocer más sobre: