Ми часто потребуємо конвертувати PDF у текстові файли для використання в аналізі даних, індексації пошуку або повторному використанні контенту. Також, якщо ви хочете створити конвертер PDF у текст, автоматизувати OCR онлайн або скопіювати текст з PDF-документів для подальшої обробки, наше REST API пропонує надійне та зручне для розробників рішення.
- API конвертації PDF
- Перетворення PDF в текст за допомогою C# .NET
- Перетворення PDF в TXT файл за допомогою cURL
PDF Conversion API
Aspose.PDF Cloud SDK for .NET є хмарним API, який спрощує екстракцію тексту з документів і обробку PDF. Він інтелектуально обробляє як текстові, так і графічні PDF, забезпечуючи точний і структурований вихід у форматі TXT.
Ключові особливості включають:
- PDF to TXT file extraction with high accuracy.
- Крос-платформенний REST API — працює без перешкод у C#, .NET Core або будь-якому середовищі з підтримкою HTTP.
- Підтримка часткової екстракції — визначте області та витягніть текст з конкретних ділянок.
Щоб почати, додайте SDK до вашого .NET проекту за допомогою NuGet:
Install-Package Aspose.PDF-Cloud
Тоді відвідайте Aspose Cloud Dashboard, щоб отримати свої облікові дані Client ID та Client Secret.
Перетворення PDF у текст за допомогою C# .NET
Давайте подивимося, як конвертувати PDF у текстовий файл у C# за допомогою .NET REST API.
Крок 1. - Створіть екземпляр класу PdfApi
, використовуючи облікові дані клієнта.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Крок 2. - Прочитайте вхідний PDF-файл і завантажте його в хмарне сховище.
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Крок 3. - Вкажіть прямокутну область у PDF та витягніть текст за допомогою методу GetText(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Крок 4. - Перебрати список, що містить текстові виникнення, та зберегти його на локальному диску.
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// Для повних прикладів та файлів даних, будь ласка, перейдіть за посиланням https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Отримайте облікові дані клієнта з https://dashboard.aspose.cloud/
// Створіть екземпляр класу PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// Завантажте PDF у хмарне сховище
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// Збережіть витягнутий текст локально
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
Перетворення PDF в TXT файл за допомогою cURL
Для розробників, які надають перевагу сценарному або крос-платформному робочому процесу, до Aspose.PDF Cloud REST API також можна отримати доступ за допомогою команд cURL.
Крок 1. – Згенеруйте токен доступу:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Крок 2. – Витягти текст з PDF Щойно токен JWT був згенерований, будь ласка, виконайте наступну команду, щоб витягти текст з PDF документа.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
Ця команда cURL отримує текстовий вміст з вашого PDF-файлу та зберігає його у .txt файлі, що робить її ідеальним методом для перетворення PDF у текстові файли в автоматизованих середовищах.
Спробуйте безкоштовний конвертер PDF в текст.
Ви шукаєте перетворення PDF в TXT без програмування? Спробуйте наш безкоштовний Online PDF to Text Converter — на базі Aspose.PDF Cloud. Просто завантажте свій PDF і завантажте витягнений текстовий файл за секунди.

Висновок
У цій статті ми навчилися, що конвертація PDF в текст є необхідною для ефективного витягування та повторного використання інформації. З Aspose.PDF Cloud ви можете автоматизувати процес копіювання тексту з PDF-файлів, обробляючи відскановані файли за допомогою OCR онлайн, і експортувати дані у вигляді структурованого тексту для аналітики або індексації пошуку.
Часто задавані питання (FAQ)
-
Can I copy text from PDF programmatically? Абсолютно. API дозволяє копіювати текст з PDF файлів, отримуючи всі наявні текстові елементи або витягуючи з конкретних регіонів за допомогою координат.
-
Яка різниця між PDF в текст та текст в PDF? PDF до тексту витягує текстові дані з документів, тоді як текст до PDF створює новий документ PDF з простого текстового введення. Aspose.PDF Cloud підтримує обидві операції.
-
Do I need Adobe Acrobat installed? Ні. Aspose.PDF Cloud SDK працює незалежно від Adobe Acrobat або будь-якого іншого програмного забезпечення. Усі операції конвертації PDF в текст відбуваються в хмарі.
-
Чи є витягнений текст точним для складних макетів? Так. API може точно витягувати текст з багатоколонкових макетів, таблиць та змішаного змісту PDF-файлів, підтримуючи чисту та зручну для читання структуру в результуючому TXT-файлі.
Корисні посилання
Відповідні статті
Ми настійно рекомендуємо відвідати наступні блоги: