Извлечение текста из PDF с помощью Python REST API

pdf в текст — Как преобразовать PDF в текст на Python

Сегодняшний цифровой мир изобилует информацией, и возможность извлечения текста из документов PDF стала не просто удобством, а необходимостью. Представьте, что вы просматриваете длинный файл PDF, ища важную информацию для цитирования в своем исследовании, или, возможно, вы управляете репозиторием документов, пытаясь извлечь данные для анализа. В этих и многих других сценариях возможность легко преобразовывать содержимое PDF в обычный текст становится решающим фактором. В этой статье рассматриваются глубокая цель и неоспоримые преимущества извлечения текста из PDF-файлов с помощью Python Cloud SDK. Это преобразование позволяет отдельным лицам и организациям эффективно управлять, анализировать и использовать цифровой контент в мире, где информация имеет огромное значение.

REST API преобразования PDF в текст
Извлечение текста из PDF на Python
Преобразование PDF в текст с помощью команды cURL

REST API преобразования PDF в текст

Извлечение текста из документов PDF становится простым и эффективным с помощью Aspose.PDF Cloud SDK для Python. Этот универсальный SDK позволяет вам без усилий преобразовывать содержимое PDF в обычный текст, открывая информацию, хранящуюся в этих цифровых документах.

Cloud SDK доступен для бесплатной загрузки через репозиторий PIP и GitHub. Теперь выполните следующую команду в терминале/командной строке, чтобы установить последнюю версию SDK:

 pip install asposepdfcloud

Если вы используете PyCharm IDE, вы можете напрямую добавить SDK в качестве зависимости в свой проект.

Файл ->Настройки ->Проект ->Интерпретатор Python ->asposepdfcloud

После установки следующим важным шагом является бесплатная подписка на наши облачные сервисы через панель управления Aspose.Cloud. Если у вас есть учетная запись GitHub или Google, просто зарегистрируйтесь или нажмите кнопку Создать новую учетную запись. Теперь войдите в панель управления и получите персонализированные данные Client ID и Client Secret.

Извлечение текста из PDF на Python

Чтобы извлечь текст из PDF-документов с помощью Python SDK, следуйте приведенным ниже инструкциям.

Во-первых, создайте экземпляр класса ApiClient, указав в качестве аргументов Client ID и Client Secret.
Во-вторых, создайте экземпляр класса PdfApi, который принимает объект ApiClient в качестве входного аргумента.
Теперь вызовите метод gettext(…), указав координаты LLX, LLY, URX и URY.

def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # создать экземпляр PdfApi, передав PdfApiClient в качестве аргумента
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Вызов метода для извлечения текста
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # вывести сообщение в консоль (необязательно)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

Предварительный просмотр преобразования PDF в текст — Изображение 1:- Предварительный просмотр PDF в тексте.

Если вам необходимо извлечь текст с определенной страницы документа, попробуйте использовать API GetPageText, который принимает pageNumber в качестве аргумента.

Преобразование PDF в текст с помощью команды cURL

Испытайте бесшовное преобразование содержимого PDF в обычный текст с помощью мощного сочетания команд Aspose.PDF Cloud и cURL. Эта динамическая интеграция не только упрощает преобразование PDF в текст, но и предлагает несколько преимуществ, которые улучшают управление документами и извлечение текста.

Обратите внимание, что предварительным условием при этом подходе является генерация JSON Web Token (JWT) на основе ваших учетных данных клиента. Этот шаг является обязательным, поскольку наши API доступны только зарегистрированным пользователям. Выполните следующую команду для генерации токена JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Получив токен JWT, мы можем использовать следующую команду для преобразования PDF в текст путем извлечения всего текстового содержимого. Вывод сохраняется как простой текстовый файл на локальном диске.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

Образец, использованный в приведенном выше примере, можно загрузить с awesomeTable.pdf.

Заключение

Извлечение текста из PDF-документов является критически важным требованием в мире, переполненном цифровой информацией. В нашем исследовании этого процесса мы рассмотрели два динамических пути: один через универсальный Aspose.PDF Cloud SDK для Python, а другой через мощное сочетание Aspose.PDF Cloud и команд cURL.

Оба подхода заполняют пробел между статическим содержимым PDF и динамическим текстом, улучшая способ управления, анализа и использования цифровой информации. Независимо от того, выбираете ли вы сложность SDK или простоту команд cURL, оба пути ведут к эффективному преобразованию PDF в текст, позволяя вам раскрыть богатство текстовых данных, скрытых в документах PDF.

REST API преобразования PDF в текст#

Извлечение текста из PDF на Python#

Преобразование PDF в текст с помощью команды cURL#

Заключение#

Похожие статьи#

REST API преобразования PDF в текст

Извлечение текста из PDF на Python

Преобразование PDF в текст с помощью команды cURL

Заключение

Похожие статьи