pdf в текст

Як конвертувати PDF у текст на Python

Сучасний цифровий світ має велику кількість інформації, і можливість отримувати текст із PDF-документів стала не просто зручністю, а необхідністю. Уявіть, що ви переглядаєте довгий файл PDF у пошуках критично важливої інформації для цитування у своєму дослідженні або, можливо, ви керуєте сховищем документів, намагаючись отримати дані для аналізу. У цих та багатьох інших сценаріях можливість без зусиль перетворювати PDF-вміст у звичайний текст стає кардинальним моментом. У цій статті досліджується головна мета та незаперечні переваги вилучення тексту з PDF-файлів за допомогою Python Cloud SDK. Ця трансформація дає можливість окремим особам і організаціям ефективно керувати, аналізувати та використовувати цифровий контент у світі, де інформація має величезне значення.

REST API перетворення PDF у текст

Вилучення тексту з PDF-документів стає простим і ефективним за допомогою Aspose.PDF Cloud SDK для Python. Цей універсальний SDK дає змогу легко перетворювати PDF-вміст у звичайний текст, розблоковуючи інформацію, що зберігається в цих цифрових документах.

Cloud SDK доступний для безкоштовного завантаження в репозиторії PIP і GitHub. Тепер виконайте таку команду в терміналі/командному рядку, щоб інсталювати останню версію SDK:

 pip install asposepdfcloud

Якщо ви використовуєте PyCharm IDE, ви можете безпосередньо додати SDK як залежність у своєму проекті.

Файл ->Параметри ->Проект ->Інтерпретатор Python ->asposepdfcloud

Після інсталяції наступним важливим кроком є безкоштовна підписка на наші хмарні сервіси через інформаційну панель Aspose.Cloud. Якщо у вас є обліковий запис GitHub або Google, просто зареєструйтеся або натисніть кнопку Створити новий обліковий запис. Тепер увійдіть на інформаційну панель і отримайте свій персональний ідентифікатор клієнта та секретні дані клієнта.

Витягніть текст із PDF на Python

Будь ласка, дотримуйтеся наведених нижче інструкцій, щоб отримати текст із PDF-документів за допомогою Python SDK.

  • По-перше, створіть екземпляр класу ApiClient, надаючи як аргументи Client ID Client Secret.
  • По-друге, створіть екземпляр класу PdfApi, який приймає об’єкт ApiClient як вхідний аргумент.
  • Тепер викличте метод gettext(…), надаючи координати LLX, LLY, URX і URY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # створити екземпляр PdfApi, передаючи PdfApiClient як аргумент
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Викличте метод для вилучення тексту
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # друкувати повідомлення в консолі (необов'язково)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Попередній перегляд перетворення PDF у текст

Зображення 1: - Попередній перегляд PDF у текст.

Якщо вам потрібно витягти текст із певної сторінки документа, спробуйте використати API GetPageText, який приймає pageNumber як аргумент.

Перетворення PDF на текст за допомогою команди cURL

Відчуйте плавне перетворення вмісту PDF у звичайний текст за допомогою потужної комбінації команд Aspose.PDF Cloud і cURL. Ця динамічна інтеграція не тільки спрощує перетворення PDF-файлу в текст, але й пропонує ряд переваг, які покращують роботу з документами та вилучення тексту.

Зауважте, що передумовою цього підходу є створення веб-токена JSON (JWT) на основі облікових даних вашого клієнта. Цей крок є обов’язковим, оскільки наші API доступні лише зареєстрованим користувачам. Виконайте таку команду, щоб створити маркер JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Отримавши токен JWT, ми можемо використати наступну команду для перетворення PDF-файлу в текст шляхом вилучення всього текстового вмісту. Вихідні дані зберігаються як звичайний текстовий файл на локальному диску.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

Зразок, використаний у наведеному вище прикладі, можна завантажити з awesomeTable.pdf.

Висновок

Вилучення тексту з PDF-документів є важливою вимогою у світі, наповненому цифровою інформацією. У нашому дослідженні цього процесу ми розглянули два динамічні шляхи: один через універсальний Aspose.PDF Cloud SDK для Python, а інший через потужну комбінацію команд Aspose.PDF Cloud і cURL.

Обидва підходи подолають розрив між статичним PDF-вмістом і динамічним текстом, покращуючи спосіб керування, аналізу та використання цифрової інформації. Незалежно від того, чи ви обираєте витонченість SDK чи простоту команд cURL, обидва шляхи ведуть до ефективного перетворення PDF у текст, що дає вам змогу розблокувати велику кількість текстових даних, прихованих у документах PDF.

Схожі статті

Ми також рекомендуємо відвідати такі посилання, щоб дізнатися більше про: