витягти текст pdf

Витягніть текст із PDF за допомогою .NET REST API.

Документи PDF стали стандартом для спільного використання та обміну інформацією між різними платформами та пристроями. Хоча PDF-файли пропонують безпечний і послідовний формат, вилучення важливих даних із цих документів може бути складним завданням, особливо коли ви маєте справу з великими обсягами інформації. Незалежно від того, чи потрібно вам витягти текст для аналізу, введення даних або маніпулювання вмістом, надійне та ефективне рішення для вилучення тексту має вирішальне значення. У цій статті ми заглибимося у світ видобування тексту з PDF-файлів за допомогою .NET REST API на базі надійного Aspose.PDF Cloud SDK.

REST API для обробки PDF

Aspose.PDF Cloud SDK для .NET — це надійний і зручний API, який спрощує вилучення тексту з PDF-файлів. Однією з видатних особливостей Aspose.PDF Cloud SDK для .NET є його здатність обробляти складні структури PDF і точно витягувати текст із документів із різними макетами. Незалежно від того, чи містить PDF-файл текст, зображення, таблиці чи інші складні елементи, API може інтелектуально переміщатися по документу та точно отримувати текстовий вміст. Тому потужні функції, точність і легкість інтеграції роблять його ідеальним вибором для вилучення цінних текстових даних із PDF-документів у програмах .NET.

Тепер, щоб розпочати роботу з цією функцією, першим кроком буде додати посилання на Cloud SDK у наше рішення .NET. Отже, знайдіть Aspose.PDF-Cloud в менеджері пакетів NuGet і натисніть кнопку Додати пакет. По-друге, відвідайте хмарну інформаційну панель і отримайте персоналізовані облікові дані клієнта.

Витягніть текст PDF за допомогою C# .NET

У цьому розділі ми збираємося дослідити деталі програмного вилучення тексту з PDF.

// Повні приклади та файли даних див 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Отримайте облікові дані клієнта з https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// створити екземпляр PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Введіть назву файлу PDF
String inputFile = "Binder1-1.pdf";
// Прочитати вміст PDF-файлу в екземпляр потоку
var sourceFile = System.IO.File.OpenRead(inputFile);

// Завантажте файл PDF у хмарне сховище
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-координата лівого нижнього кута
Double LLX = 500.0;
// Y - координата нижнього лівого кута.
Double LLY = 500.0;
// X - координата правого верхнього кута.
Double URX = 800.0;
// Y - координата правого верхнього кута.
Double URY = 800.0;

// Викличте API, щоб отримати текст із певних координат у документі PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Перехід через окреме входження тексту
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // написати текстовий вміст у консолі
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Витягти текст pdf

Попередній перегляд тексту, отриманого з документа PDF.

Нижче наведено деталі щодо зазначеного вище фрагмента коду.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

По-перше, створіть екземпляр класу PdfApi, де ми передаємо облікові дані клієнта як аргументи.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Завантажте вміст вхідного PDF-файлу в екземпляр потокової передачі.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Завантажте PDF-документ у хмарне сховище.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Викличте API, щоб отримати текст із PDF-файлу за певними координатами сторінки.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Перегляньте список, що містить витягнуті входження тексту, і надрукуйте екземпляри тексту в консолі.

Розберіть текст із PDF за допомогою команд cURL

Використовуючи команди cURL у поєднанні з Aspose.PDF Cloud API, ви можете легко видобувати текстовий вміст із PDF-файлів, розміщених у хмарному сховищі. API підтримує різноманітні параметри для налаштування процесу вилучення, дозволяючи вказувати координати та інші параметри для точного вилучення тексту.

Першим кроком цього підходу є створення маркера доступу JWT під час виконання наступної команди.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Після створення маркера JWT виконайте наведену нижче команду, щоб отримати текст із документа PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Замініть inputPDF назвою документа PDF, який уже доступний у хмарному сховищі, а accessToken — маркером JWT, згенерованим вище.

Висновок

Підсумовуючи, як Aspose.PDF Cloud SDK для .NET, так і командний підхід cURL пропонують ефективні та надійні рішення для вилучення тексту з документів PDF. Aspose.PDF Cloud SDK для .NET надає комплексний і зручний для розробників API із широким набором функцій, що робить його потужним вибором для інтеграції вилучення тексту PDF у програми .NET. З іншого боку, командний підхід cURL пропонує гнучкий і незалежний від платформи метод взаємодії з Aspose.PDF Cloud API, що робить його чудовим варіантом для розробників, які працюють у різних середовищах і мовах програмування.

корисні посилання

Схожі статті

Ми настійно рекомендуємо відвідати такі блоги: