Мы часто нуждаемся в том, чтобы конвертировать PDF в текстовые файлы для использования в анализе данных, индексировании поиска или повторном использовании контента. Кроме того, если вы хотите создать конвертер PDF в текст, автоматизировать OCR онлайн или скопировать текст из PDF-документов для дальнейшей обработки, наше REST API предлагает надежное и удобное решение для разработчиков.

API конверсии PDF

Aspose.PDF Cloud SDK for .NET — это облачное API, которое упрощает извлечение текста из документов и обработку PDF. Оно интеллектуально обрабатывает как текстовые, так и изображенческие PDF, предоставляя точный и структурированный вывод в формате TXT.

Ключевые функции включают:

  • Извлечение PDF в TXT файл с высокой точностью.
  • Кросс-платформенный REST API — работает без проблем в C#, .NET Core или в любой среде с поддержкой HTTP.
  • Поддержка частичной.extract — определите области и извлекайте текст из конкретных зон.

Чтобы начать, добавьте SDK в ваш .NET проект с помощью NuGet:

Install-Package Aspose.PDF-Cloud

Затем посетите Aspose Cloud Dashboard, чтобы получить свои учетные данные Client ID и Client Secret.

PDF to Text Conversion using C# .NET

Давайте посмотрим, как преобразовать PDF в текстовый файл на C# с использованием .NET REST API.

Шаг 1. - Создайте экземпляр класса PdfApi, используя учетные данные клиента.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Этап 2. - Прочитайте входной PDF-файл и загрузите его в облачное хранилище.

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Шаг 3. - Укажите прямоугольную область в PDF и извлеките текст, используя метод GetText(...).

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Шаг 4. - Итерируйте по списку, содержащему текстовые вхождения, и сохраните его на локальном диске.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// Для полных примеров и файлов данных, пожалуйста, перейдите по адресу https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Получите учетные данные клиента с https://dashboard.aspose.cloud/

// Создайте экземпляр класса PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// Загрузите PDF в облачное хранилище
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// Сохраните извлеченный текст локально
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

Конвертировать PDF в файл TXT с помощью cURL

Для разработчиков, которые предпочитают сценарный или кроссплатформенный рабочий процесс, к REST API Aspose.PDF Cloud также можно получить доступ с помощью команд cURL.

Шаг 1. – Сгенерировать токен доступа:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Шаг 2. – Извлечение текста из PDF После того как JWT токен был сгенерирован, пожалуйста, выполните следующую команду, чтобы извлечь текст из PDF документа.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

Эта команда cURL извлекает текстовое содержимое из вашего PDF-файла и сохраняет его в .txt файл, что делает её идеальным методом для конвертации PDF в текстовый файл в автоматизированных средах.

Попробуйте бесплатный конвертер PDF в текст.

Вы ищете конвертацию PDF в TXT без программирования? Попробуйте наш бесплатный онлайн-конвертер PDF в текст — на базе Aspose.PDF Cloud. Просто загрузите ваш PDF и скачайте извлеченный текстовый файл за считанные секунды.

extract text from PDF

Заключение

В этой статье мы узнали, что конвертация PDF в текст важна для эффективного извлечения и повторного использования информации. С помощью Aspose.PDF Cloud вы можете автоматизировать процесс копирования текста из PDF, обрабатывать отсканированные файлы с помощью OCR онлайн и экспортировать данные в виде структурированного текста для аналитики или индексирования поиска.

Часто задаваемые вопросы (FAQ)

  1. Can I copy text from PDF programmatically? Абсолютно. API позволяет вам копировать текст из PDF-файлов, извлекая все текстовые вхождения или извлекая их из конкретных регионов с использованием координат.

  2. Какова разница между PDF в текст и текст в PDF? PDF to text извлекает текстовые данные из документов, в то время как текст в PDF создает новый PDF-документ из простого текстового ввода. Aspose.PDF Cloud поддерживает обе операции.

  3. Мне нужно установить Adobe Acrobat? Нет. Aspose.PDF Cloud SDK работает независимо от Adobe Acrobat или любого другого ПО. Все операции по конвертации PDF в текст происходят в облаке.

  4. Текст, извлечённый для сложных макетов, точен? Да. API может точно извлекать текст из макетов с несколькими колонками, таблиц и смешанных PDF-документов, сохраняя чистую и читаемую структуру в результирующем TXT файле.

Полезные ссылки

Связанные статьи

Мы настоятельно рекомендуем посетить следующие блоги: