Извлечение изображений из PDF

PDF-файлы широко используются для хранения и распространения различных типов документов, включая отчеты, презентации и брошюры. Однако, когда дело доходит до извлечения изображений из этих файлов, этот процесс может быть трудоемким и громоздким. Независимо от того, нужно ли вам извлекать изображения для дальнейшего редактирования, анализа или включения в собственные проекты, наличие надежного и эффективного подхода имеет решающее значение. Поэтому использование возможностей программного SDK может оптимизировать процесс извлечения изображений, сэкономить драгоценное время и усилия. Теперь в этой статье мы рассмотрим подробности того, как извлекать изображения из файлов PDF с помощью Python Cloud SDK, и откроем совершенно новый уровень производительности и удобства.

Облачный SDK для обработки PDF-файлов

Когда дело доходит до извлечения изображений из PDF-файлов с помощью Python, Aspose.PDF Cloud API является мощным и универсальным инструментом. С Aspose.PDF Cloud SDK для Python вы можете не только извлекать изображения из PDF-файлов, но и выполнять различные другие задачи, такие как конвертация PDF-файлов в различные форматы, добавление аннотаций, объединение или разделение PDF-документов и многое другое. Кроме того, SDK предлагает полный набор API, которые позволяют вам программно манипулировать PDF-файлами, экономя ваше время и усилия.

Теперь, чтобы установить SDK, пожалуйста, загрузите его из репозитория PIP или GitHub. Поэтому, пожалуйста, выполните следующую команду в терминале/командной строке, чтобы установить последнюю версию SDK в системе.

 pip install asposepdfcloud

PyCharm-IDE-среда

Если вы используете PyCharm IDE, вы можете напрямую добавить SDK в качестве зависимости в свой проект.

Файл ->Настройки ->Проект ->Интерпретатор Python ->asposepdfcloud

Настройки PyCharm

Изображение 1:- Параметры настройки PyCharm.

Пакет Python Aspose.PDF

Изображение 2:- Пакет Aspose.PDF Cloud Python.

Другим важным шагом является создание бесплатной учетной записи через облачную панель управления с помощью учетной записи GitHub или Google. Или нажмите кнопку создать новую учетную запись и предоставьте необходимую информацию и получите персонализированные учетные данные клиента.

Учетные данные клиента

Изображение 3:- Учетные данные клиента на панели управления Cloud.

Извлечение изображений из PDF-файла на Python

Чтобы извлечь изображения из PDF-документов в формате JPEG и сохранить их в папке в облачном хранилище, выполните указанные ниже действия.

  • Во-первых, создайте экземпляр класса ApiClient, указав в качестве аргументов Client ID и Client Secret.
  • Во-вторых, создайте экземпляр класса PdfApi, который принимает объект ApiClient в качестве аргумента.
  • Теперь вызовите метод putimagesextractasjpeg(…), который принимает входное имя PDF-файла, соответствующий номер страницы PDF-файла и необязательный параметр, указывающий целевую папку для сохранения извлеченных изображений.
def extractImages():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # создать экземпляр PdfApi, передав PdfApiClient в качестве аргумента
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'URL2PDF.pdf'

        # Вызовите API для извлечения изображений в формате JPEG и сохранения их в папке ExtractedImages в облачном хранилище.
        response = pdf_api.put_images_extract_as_jpeg(name = input_file, page_number= 3, dest_folder = 'ExtractedImages')
        
        print(response)
        # вывести сообщение в консоль (необязательно)
        print('Images successfully extracted from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

API также поддерживает два необязательных параметра для указания ширины и высоты извлеченных изображений.

заголовок

Image 4:- Preview of extracted images.

Если вам необходимо извлечь изображения в других форматах, вы можете рассмотреть возможность использования следующих API:

  • PutImagesExtractAsTiff - Извлечение изображений документов в формате TIFF
  • PutImagesExtractAsGif - Извлечение изображений документов в формате GIF
  • PutImagesExtractAsPng - Извлечение изображений документов в формате PNG

Загрузите изображения PDF с помощью команды cURL

Извлечение изображений из файлов PDF также может быть достигнуто с помощью API Aspose.PDF Cloud с командами cURL. Используя команды cURL, вы можете делать HTTP-запросы к конечным точкам API и с легкостью извлекать изображения из файлов PDF. Такой подход обеспечивает гибкость и удобство, поскольку вы можете интегрировать функциональность извлечения изображений непосредственно в свои скрипты или приложения. Кроме того, вы также получаете возможность доступа к API REST через терминал командной строки на любой платформе, например, Windows, Linux, macOS или других операционных системах.

В этом разделе мы будем использовать команды cURL для извлечения изображений в формате PNG и сохранения вывода в облачном хранилище. Итак, первым шагом будет генерация JSON Web Token (JWT) путем выполнения следующей команды.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Теперь выполните следующую команду, чтобы извлечь изображения только с 3-й страницы документа PDF. Изображения извлекаются в формате PNG.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/URL2PDF.pdf/pages/3/images/extract/png?width=0&height=0&destFolder=ExtractedImages" \
-H  "Accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-d{}

Образец PDF-файла, использованного в приведенном выше примере, можно загрузить с URL2PDF.pdf.

Заключение

В заключение следует отметить, что извлечение изображений из файлов PDF — это ценная возможность, которую можно реализовать с помощью как Aspose.PDF Cloud SDK для Python, так и команд cURL. Независимо от того, предпочитаете ли вы удобство и простоту программирования Python или универсальность команд cURL, Aspose.PDF Cloud предоставляет надежный API для выполнения этой задачи. Используя возможности облака, вы можете с легкостью извлекать изображения из документов PDF, улучшая свой рабочий процесс. Тем не менее, с Aspose.PDF Cloud у вас есть возможность выбрать подход, который наилучшим образом соответствует вашим требованиям, и легко интегрировать функциональность извлечения изображений в свои проекты.

Полезные ресурсы

Похожие статьи

Мы также рекомендуем посетить следующие ссылки, чтобы узнать больше о: