Мы часто нуждаемся в том, чтобы конвертировать PDF в текстовые файлы для использования в анализе данных, индексировании поиска или повторном использовании контента. Кроме того, если вы хотите создать конвертер PDF в текст, автоматизировать OCR онлайн или скопировать текст из PDF-документов для дальнейшей обработки, наше REST API предлагает надежное и удобное решение для разработчиков.
- API конвертации PDF
- Преобразование PDF в текст с использованием C# .NET
- Преобразование PDF в TXT файл с использованием cURL
API конверсии PDF
Aspose.PDF Cloud SDK for .NET — это облачное API, которое упрощает извлечение текста из документов и обработку PDF. Оно интеллектуально обрабатывает как текстовые, так и изображенческие PDF, предоставляя точный и структурированный вывод в формате TXT.
Ключевые функции включают:
- Извлечение PDF в TXT файл с высокой точностью.
- Кросс-платформенный REST API — работает без проблем в C#, .NET Core или в любой среде с поддержкой HTTP.
- Поддержка частичной.extract — определите области и извлекайте текст из конкретных зон.
Чтобы начать, добавьте SDK в ваш .NET проект с помощью NuGet:
Install-Package Aspose.PDF-Cloud
Затем посетите Aspose Cloud Dashboard, чтобы получить свои учетные данные Client ID и Client Secret.
PDF to Text Conversion using C# .NET
Давайте посмотрим, как преобразовать PDF в текстовый файл на C# с использованием .NET REST API.
Шаг 1. - Создайте экземпляр класса PdfApi
, используя учетные данные клиента.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Этап 2. - Прочитайте входной PDF-файл и загрузите его в облачное хранилище.
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Шаг 3. - Укажите прямоугольную область в PDF и извлеките текст, используя метод GetText(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Шаг 4. - Итерируйте по списку, содержащему текстовые вхождения, и сохраните его на локальном диске.
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// Для полных примеров и файлов данных, пожалуйста, перейдите по адресу https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Получите учетные данные клиента с https://dashboard.aspose.cloud/
// Создайте экземпляр класса PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// Загрузите PDF в облачное хранилище
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// Сохраните извлеченный текст локально
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
Конвертировать PDF в файл TXT с помощью cURL
Для разработчиков, которые предпочитают сценарный или кроссплатформенный рабочий процесс, к REST API Aspose.PDF Cloud также можно получить доступ с помощью команд cURL.
Шаг 1. – Сгенерировать токен доступа:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Шаг 2. – Извлечение текста из PDF После того как JWT токен был сгенерирован, пожалуйста, выполните следующую команду, чтобы извлечь текст из PDF документа.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
Эта команда cURL извлекает текстовое содержимое из вашего PDF-файла и сохраняет его в .txt файл, что делает её идеальным методом для конвертации PDF в текстовый файл в автоматизированных средах.
Попробуйте бесплатный конвертер PDF в текст.
Вы ищете конвертацию PDF в TXT без программирования? Попробуйте наш бесплатный онлайн-конвертер PDF в текст — на базе Aspose.PDF Cloud. Просто загрузите ваш PDF и скачайте извлеченный текстовый файл за считанные секунды.

Заключение
В этой статье мы узнали, что конвертация PDF в текст важна для эффективного извлечения и повторного использования информации. С помощью Aspose.PDF Cloud вы можете автоматизировать процесс копирования текста из PDF, обрабатывать отсканированные файлы с помощью OCR онлайн и экспортировать данные в виде структурированного текста для аналитики или индексирования поиска.
Часто задаваемые вопросы (FAQ)
-
Can I copy text from PDF programmatically? Абсолютно. API позволяет вам копировать текст из PDF-файлов, извлекая все текстовые вхождения или извлекая их из конкретных регионов с использованием координат.
-
Какова разница между PDF в текст и текст в PDF? PDF to text извлекает текстовые данные из документов, в то время как текст в PDF создает новый PDF-документ из простого текстового ввода. Aspose.PDF Cloud поддерживает обе операции.
-
Мне нужно установить Adobe Acrobat? Нет. Aspose.PDF Cloud SDK работает независимо от Adobe Acrobat или любого другого ПО. Все операции по конвертации PDF в текст происходят в облаке.
-
Текст, извлечённый для сложных макетов, точен? Да. API может точно извлекать текст из макетов с несколькими колонками, таблиц и смешанных PDF-документов, сохраняя чистую и читаемую структуру в результирующем TXT файле.
Полезные ссылки
Связанные статьи
Мы настоятельно рекомендуем посетить следующие блоги: