
Как преобразовать PDF в текст на Python
Сегодняшний цифровой мир изобилует информацией, и возможность извлечения текста из документов PDF стала не просто удобством, а необходимостью. Представьте, что вы просматриваете длинный файл PDF, ища важную информацию для цитирования в своем исследовании, или, возможно, вы управляете репозиторием документов, пытаясь извлечь данные для анализа. В этих и многих других сценариях возможность легко преобразовывать содержимое PDF в обычный текст становится решающим фактором. В этой статье рассматриваются глубокая цель и неоспоримые преимущества извлечения текста из PDF-файлов с помощью Python Cloud SDK. Это преобразование позволяет отдельным лицам и организациям эффективно управлять, анализировать и использовать цифровой контент в мире, где информация имеет огромное значение.
- REST API преобразования PDF в текст
- Извлечение текста из PDF на Python
- Преобразование PDF в текст с помощью команды cURL
REST API преобразования PDF в текст
Извлечение текста из документов PDF становится простым и эффективным с помощью Aspose.PDF Cloud SDK для Python. Этот универсальный SDK позволяет вам без усилий преобразовывать содержимое PDF в обычный текст, открывая информацию, хранящуюся в этих цифровых документах.
Cloud SDK доступен для бесплатной загрузки через репозиторий PIP и GitHub. Теперь выполните следующую команду в терминале/командной строке, чтобы установить последнюю версию SDK:
pip install asposepdfcloud
Если вы используете PyCharm IDE, вы можете напрямую добавить SDK в качестве зависимости в свой проект.
Файл ->Настройки ->Проект ->Интерпретатор Python ->asposepdfcloud
После установки следующим важным шагом является бесплатная подписка на наши облачные сервисы через панель управления Aspose.Cloud. Если у вас есть учетная запись GitHub или Google, просто зарегистрируйтесь или нажмите кнопку Создать новую учетную запись. Теперь войдите в панель управления и получите персонализированные данные Client ID и Client Secret.
Извлечение текста из PDF на Python
Чтобы извлечь текст из PDF-документов с помощью Python SDK, следуйте приведенным ниже инструкциям.
- Во-первых, создайте экземпляр класса ApiClient, указав в качестве аргументов Client ID и Client Secret.
- Во-вторых, создайте экземпляр класса PdfApi, который принимает объект ApiClient в качестве входного аргумента.
- Теперь вызовите метод gettext(…), указав координаты LLX, LLY, URX и URY.
def extractText():
try:
#Client credentials
client_secret = "1c9379bb7d701c26cc87e741a29987bb"
client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# создать экземпляр PdfApi, передав PdfApiClient в качестве аргумента
pdf_api = PdfApi(pdf_api_client)
#source image file
input_file = 'awesomeTable.pdf'
# Вызов метода для извлечения текста
response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
print(response)
# вывести сообщение в консоль (необязательно)
print('Text Extracted successfully from PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)

Изображение 1:- Предварительный просмотр PDF в тексте.
Если вам необходимо извлечь текст с определенной страницы документа, попробуйте использовать API GetPageText, который принимает pageNumber в качестве аргумента.
Преобразование PDF в текст с помощью команды cURL
Испытайте бесшовное преобразование содержимого PDF в обычный текст с помощью мощного сочетания команд Aspose.PDF Cloud и cURL. Эта динамическая интеграция не только упрощает преобразование PDF в текст, но и предлагает несколько преимуществ, которые улучшают управление документами и извлечение текста.
Обратите внимание, что предварительным условием при этом подходе является генерация JSON Web Token (JWT) на основе ваших учетных данных клиента. Этот шаг является обязательным, поскольку наши API доступны только зарегистрированным пользователям. Выполните следующую команду для генерации токена JWT.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Получив токен JWT, мы можем использовать следующую команду для преобразования PDF в текст путем извлечения всего текстового содержимого. Вывод сохраняется как простой текстовый файл на локальном диске.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>" \
-o Extracted.txt
Образец, использованный в приведенном выше примере, можно загрузить с awesomeTable.pdf.
Заключение
Извлечение текста из PDF-документов является критически важным требованием в мире, переполненном цифровой информацией. В нашем исследовании этого процесса мы рассмотрели два динамических пути: один через универсальный Aspose.PDF Cloud SDK для Python, а другой через мощное сочетание Aspose.PDF Cloud и команд cURL.
Оба подхода заполняют пробел между статическим содержимым PDF и динамическим текстом, улучшая способ управления, анализа и использования цифровой информации. Независимо от того, выбираете ли вы сложность SDK или простоту команд cURL, оба пути ведут к эффективному преобразованию PDF в текст, позволяя вам раскрыть богатство текстовых данных, скрытых в документах PDF.
Похожие статьи
Мы также рекомендуем посетить следующие ссылки, чтобы узнать больше о: