Извлечение текста из PDF в C# | Извлечение текста из PDF с использованием REST

PDF(Portable Document Format) файлы являются одними из самых надежных и широко используемых форматов для обмена документами на различных платформах — обеспечивая согласованный макет и внешний вид независимо от программного обеспечения или устройства. Однако бывают ситуации, когда разработчикам необходимо программно извлекать текст из PDF файлов, такие как анализ содержимого, индексация документов или преобразование PDF в редактируемые текстовые форматы.

В этой статье мы исследуем, как извлечь текст из PDF-файлов и создать конвертер PDF в текст с использованием .NET REST API, что позволяет выполнять бесшовное и автоматизированное извлечение текста через вызовы REST API.

API обработки PDF
Выполните преобразование PDF в текст на C#
Извлечение текста из PDF с использованием cURL

API обработки PDF

Используйте возможности Aspose.PDF Cloud SDK for .NET для эффективного извлечения текста из PDF-файлов. В дополнение к извлечению текста, SDK позволяет создавать PDF-документы с нуля или из шаблонов, редактировать существующие PDF и конвертировать их в другие поддерживаемые форматы. Вы также можете выполнять такие задачи, как расшифровка, объединение и манипулирование PDF-файлами непосредственно через .NET REST API.

Теперь, чтобы начать, нам нужно установить SDK в нашем .NET проекте.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Мы также должны создать бесплатную учетную запись на Cloud Dashboard и получить наши персонализированные учетные данные клиента.

Выполните преобразование PDF в текст на C#

Пожалуйста, выполните шаги, указанные ниже, чтобы извлечь текст из PDF-файла с использованием C# .NET.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Создайте объект класса PdfApi, в который мы передаем учетные данные клиента, полученные выше, в качестве аргументов.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Считайте PDF-файл с локального диска и загрузите его в облачное хранилище, используя метод UploadFile(...).

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Нам нужно указать регион в PDF файле, откуда мы хотим извлечь текстовое содержание, используя метод GetText(...).

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Как только текстовое содержимое будет извлечено, мы можем либо сохранить его на локальном диске, либо вывести в консоль.

// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Получите учетные данные клиента с https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// создайте объект PdfApi, передав учетные данные клиента в качестве аргументов
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// Загрузите файл PDF в экземпляр потока
var sourceFile = OpenRead(inputFile);

// Загрузите PDF файл в облачное хранилище.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Координата X нижнего левого угла
Double LLX = 200.0;
// Y - координата нижнего левого угла.
Double LLY = 200.0;
// Координата X верхнего правого угла.
Double URX = 600.0;
// Y - координата верхнего правого угла.
Double URY = 650.0;

// Вызовите API для извлечения текста из заданных координат
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Теперь пройдитесь через каждое вхождение текста и выведите его в консоль.
// В качестве альтернативы мы также можем сохранить вывод непосредственно в .txt файл.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Извлечение текста из PDF с использованием cURL

Помимо использования фрагментов кода .NET или Java, вы также можете извлекать текст из PDF-файлов с помощью Aspose.PDF Cloud через команды cURL. В этом подходе предварительным условием является создание JWT токена доступа (на основе ваших учетных данных клиента), который можно получить с помощью следующей команды.

Шаг 1. - Получить токен JWTAccess:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Шаг 1. - Извлечь текст из PDF файла:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"

После успешного выполнения команды текст из указанной прямоугольной области извлекается в текстовый файл.

Бесплатное приложение для парсинга PDF

Если вы хотите протестировать возможности API без любого программирования или команд cURL, то попробуйте использовать наше [Free PDF Parser] приложение, разработанное на основе .NET REST APIs.

Заключительные замечания

В этой статье мы узнали детали о том, как интегрировать Aspose.PDF Cloud SDK для .NET в наш .NET проект для целей извлечения текста, и в то же время мы исследовали возможность использования команд cURL для выполнения извлечения текста из PDF через интерфейс командной строки. Итак, независимо от того, является ли вашей целью анализ данных, машинное обучение или другие цели автоматизации, SDK предоставляет вам надежные инструменты для эффективной обработки содержимого PDF. Применяйте эти навыки на практике и оптимизируйте свою работу с PDF, как профессионал!

Читать материалы

Связанные статьи

Мы также рекомендуем посетить следующие ссылки, чтобы узнать больше о:

API обработки PDF#

Выполните преобразование PDF в текст на C##

Извлечение текста из PDF с использованием cURL#

Бесплатное приложение для парсинга PDF#

Заключительные замечания#

Читать материалы#

Связанные статьи#