Ми часто потребуємо конвертувати PDF у текстові файли для використання в аналізі даних, індексації пошуку або повторному використанні контенту. Також, якщо ви хочете створити конвертер PDF у текст, автоматизувати OCR онлайн або скопіювати текст з PDF-документів для подальшої обробки, наше REST API пропонує надійне та зручне для розробників рішення.

PDF Conversion API

Aspose.PDF Cloud SDK for .NET є хмарним API, який спрощує екстракцію тексту з документів і обробку PDF. Він інтелектуально обробляє як текстові, так і графічні PDF, забезпечуючи точний і структурований вихід у форматі TXT.

Ключові особливості включають:

  • PDF to TXT file extraction with high accuracy.
  • Крос-платформенний REST API — працює без перешкод у C#, .NET Core або будь-якому середовищі з підтримкою HTTP.
  • Підтримка часткової екстракції — визначте області та витягніть текст з конкретних ділянок.

Щоб почати, додайте SDK до вашого .NET проекту за допомогою NuGet:

Install-Package Aspose.PDF-Cloud

Тоді відвідайте Aspose Cloud Dashboard, щоб отримати свої облікові дані Client ID та Client Secret.

Перетворення PDF у текст за допомогою C# .NET

Давайте подивимося, як конвертувати PDF у текстовий файл у C# за допомогою .NET REST API.

Крок 1. - Створіть екземпляр класу PdfApi, використовуючи облікові дані клієнта.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Крок 2. - Прочитайте вхідний PDF-файл і завантажте його в хмарне сховище.

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Крок 3. - Вкажіть прямокутну область у PDF та витягніть текст за допомогою методу GetText(...).

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Крок 4. - Перебрати список, що містить текстові виникнення, та зберегти його на локальному диску.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// Для повних прикладів та файлів даних, будь ласка, перейдіть за посиланням https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Отримайте облікові дані клієнта з https://dashboard.aspose.cloud/

// Створіть екземпляр класу PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// Завантажте PDF у хмарне сховище
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// Збережіть витягнутий текст локально
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

Перетворення PDF в TXT файл за допомогою cURL

Для розробників, які надають перевагу сценарному або крос-платформному робочому процесу, до Aspose.PDF Cloud REST API також можна отримати доступ за допомогою команд cURL.

Крок 1. – Згенеруйте токен доступу:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Крок 2. – Витягти текст з PDF Щойно токен JWT був згенерований, будь ласка, виконайте наступну команду, щоб витягти текст з PDF документа.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

Ця команда cURL отримує текстовий вміст з вашого PDF-файлу та зберігає його у .txt файлі, що робить її ідеальним методом для перетворення PDF у текстові файли в автоматизованих середовищах.

Спробуйте безкоштовний конвертер PDF в текст.

Ви шукаєте перетворення PDF в TXT без програмування? Спробуйте наш безкоштовний Online PDF to Text Converter — на базі Aspose.PDF Cloud. Просто завантажте свій PDF і завантажте витягнений текстовий файл за секунди.

extract text from PDF

Висновок

У цій статті ми навчилися, що конвертація PDF в текст є необхідною для ефективного витягування та повторного використання інформації. З Aspose.PDF Cloud ви можете автоматизувати процес копіювання тексту з PDF-файлів, обробляючи відскановані файли за допомогою OCR онлайн, і експортувати дані у вигляді структурованого тексту для аналітики або індексації пошуку.

Часто задавані питання (FAQ)

  1. Can I copy text from PDF programmatically? Абсолютно. API дозволяє копіювати текст з PDF файлів, отримуючи всі наявні текстові елементи або витягуючи з конкретних регіонів за допомогою координат.

  2. Яка різниця між PDF в текст та текст в PDF? PDF до тексту витягує текстові дані з документів, тоді як текст до PDF створює новий документ PDF з простого текстового введення. Aspose.PDF Cloud підтримує обидві операції.

  3. Do I need Adobe Acrobat installed? Ні. Aspose.PDF Cloud SDK працює незалежно від Adobe Acrobat або будь-якого іншого програмного забезпечення. Усі операції конвертації PDF в текст відбуваються в хмарі.

  4. Чи є витягнений текст точним для складних макетів? Так. API може точно витягувати текст з багатоколонкових макетів, таблиць та змішаного змісту PDF-файлів, підтримуючи чисту та зручну для читання структуру в результуючому TXT-файлі.

Корисні посилання

Відповідні статті

Ми настійно рекомендуємо відвідати наступні блоги: