Документи PDF стали стандартом для спільного використання та обміну інформацією між різними платформами та пристроями. Хоча PDF-файли пропонують безпечний і послідовний формат, вилучення важливих даних із цих документів може бути складним завданням, особливо коли ви маєте справу з великими обсягами інформації. Незалежно від того, чи потрібно вам витягти текст для аналізу, введення даних або маніпулювання вмістом, надійне та ефективне рішення для вилучення тексту має вирішальне значення. У цій статті ми заглибимося у світ видобування тексту з PDF-файлів за допомогою .NET REST API на базі надійного Aspose.PDF Cloud SDK.
- REST API для обробки PDF
- Витягніть текст PDF за допомогою C# .NET
- Розберіть текст із PDF за допомогою команд cURL
REST API для обробки PDF
Aspose.PDF Cloud SDK для .NET — це надійний і зручний API, який спрощує вилучення тексту з PDF-файлів. Однією з видатних особливостей Aspose.PDF Cloud SDK для .NET є його здатність обробляти складні структури PDF і точно витягувати текст із документів із різними макетами. Незалежно від того, чи містить PDF-файл текст, зображення, таблиці чи інші складні елементи, API може інтелектуально переміщатися по документу та точно отримувати текстовий вміст. Тому потужні функції, точність і легкість інтеграції роблять його ідеальним вибором для вилучення цінних текстових даних із PDF-документів у програмах .NET.
Тепер, щоб розпочати роботу з цією функцією, першим кроком буде додати посилання на Cloud SDK у наше рішення .NET. Отже, знайдіть Aspose.PDF-Cloud
в менеджері пакетів NuGet і натисніть кнопку Додати пакет
. По-друге, відвідайте хмарну інформаційну панель і отримайте персоналізовані облікові дані клієнта.
Витягніть текст PDF за допомогою C# .NET
У цьому розділі ми збираємося дослідити деталі програмного вилучення тексту з PDF.
// Повні приклади та файли даних див
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Отримайте облікові дані клієнта з https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// створити екземпляр PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Введіть назву файлу PDF
String inputFile = "Binder1-1.pdf";
// Прочитати вміст PDF-файлу в екземпляр потоку
var sourceFile = System.IO.File.OpenRead(inputFile);
// Завантажте файл PDF у хмарне сховище
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// X-координата лівого нижнього кута
Double LLX = 500.0;
// Y - координата нижнього лівого кута.
Double LLY = 500.0;
// X - координата правого верхнього кута.
Double URX = 800.0;
// Y - координата правого верхнього кута.
Double URY = 800.0;
// Викличте API, щоб отримати текст із певних координат у документі PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Перехід через окреме входження тексту
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// написати текстовий вміст у консолі
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Нижче наведено деталі щодо зазначеного вище фрагмента коду.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
По-перше, створіть екземпляр класу PdfApi, де ми передаємо облікові дані клієнта як аргументи.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
Завантажте вміст вхідного PDF-файлу в екземпляр потокової передачі.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Завантажте PDF-документ у хмарне сховище.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Викличте API, щоб отримати текст із PDF-файлу за певними координатами сторінки.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Перегляньте список, що містить витягнуті входження тексту, і надрукуйте екземпляри тексту в консолі.
Розберіть текст із PDF за допомогою команд cURL
Використовуючи команди cURL у поєднанні з Aspose.PDF Cloud API, ви можете легко видобувати текстовий вміст із PDF-файлів, розміщених у хмарному сховищі. API підтримує різноманітні параметри для налаштування процесу вилучення, дозволяючи вказувати координати та інші параметри для точного вилучення тексту.
Першим кроком цього підходу є створення маркера доступу JWT під час виконання наступної команди.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Після створення маркера JWT виконайте наведену нижче команду, щоб отримати текст із документа PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
Замініть inputPDF
назвою документа PDF, який уже доступний у хмарному сховищі, а accessToken
— маркером JWT, згенерованим вище.
Висновок
Підсумовуючи, як Aspose.PDF Cloud SDK для .NET, так і командний підхід cURL пропонують ефективні та надійні рішення для вилучення тексту з документів PDF. Aspose.PDF Cloud SDK для .NET надає комплексний і зручний для розробників API із широким набором функцій, що робить його потужним вибором для інтеграції вилучення тексту PDF у програми .NET. З іншого боку, командний підхід cURL пропонує гнучкий і незалежний від платформи метод взаємодії з Aspose.PDF Cloud API, що робить його чудовим варіантом для розробників, які працюють у різних середовищах і мовах програмування.
корисні посилання
Схожі статті
Ми настійно рекомендуємо відвідати такі блоги: