В цифровой среде необходимость преобразования PDF в XML (расширяемый язык разметки) ) никогда не был более критичным. Хотя PDF отлично подходит для сохранения формата и совместного использования, он часто создает проблемы, когда дело доходит до извлечения и структурирования данных. С другой стороны, XML — это универсальный язык разметки, предназначенный для организации, хранения и транспортировки данных. Преобразуя PDF-файлы в XML, мы устраняем разрыв между неструктурированным контентом и структурированными данными, позволяя использовать множество приложений, начиная от анализа данных и заканчивая возможностью повторного использования контента.
Давайте углубимся в подробности преобразования PDF в XML с помощью .NET REST API.
- REST API для преобразования PDF в XML
- Разработка конвертера файлов PDF в XML на C# .NET
- Преобразование PDF в XML с помощью команд cURL
REST API для преобразования PDF в XML
Используя возможности Aspose.PDF Cloud SDK для .NET, преобразование становится простым и эффективным. Помимо простого преобразования PDF в XML, этот мощный SDK предлагает целый спектр возможностей — от манипулирования документами до извлечения данных. Давайте рассмотрим процесс преобразования PDF в XML, чтобы произвести революцию в способах обработки и использования данных документа.
Найдите «Aspose.PDF-Cloud» в диспетчере пакетов NuGet в Visual Studio IDE и нажмите кнопку «Добавить пакет», чтобы ссылка на SDK была добавлена в проект.
Вам также необходимо получить учетные данные клиента из облачной панели управления. Если у вас нет существующей учетной записи, просто создайте бесплатную учетную запись, следуя инструкциям, указанным в разделе быстрый старт.
Разработка конвертера файлов PDF в XML на C# .NET
Следуйте инструкциям, приведенным ниже, чтобы преобразовать файл PDF в XML для структурированного представления данных.
// Дополнительные примеры: https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet/tree/master/Examples.
// Получите учетные данные клиента с https://dashboard.aspose.cloud/.
string clientSecret = "c71cfe618cc6c0944f8f96bdef9813ac";
string clientID = "163c02a1-fcaa-4f79-be54-33012487e783";
// создать экземпляр PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
var response = pdfApi.GetPdfInStorageToXml("Hardy02.pdf");
if (response != null)
{
Console.WriteLine("PDF to XML conversion completed successfully !");
}
saveToDisk(response,"ResultantFile.xml");
// Пользовательский метод сохранения содержимого потока в файл на локальном диске
public static void saveToDisk(Stream responseStream, String resultantFile)
{
var fileStream = File.Create(resultantFile);
responseStream.Seek(0, SeekOrigin.Begin);
responseStream.CopyTo(fileStream);
fileStream.Close();
}
Ниже приведены краткие сведения о приведенном выше фрагменте кода.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Создайте объект класса PdfApi, передав учетные данные клиента в качестве входных аргументов.
pdfApi.GetPdfInStorageToXml("Hardy02.pdf");
Теперь вызовите API, чтобы преобразовать PDF-файл с тегами в формат XML. Затем мы используем собственный метод для сохранения вывода на локальный диск.
Преобразование PDF в XML с помощью команд cURL
Преобразование PDF в XML становится чрезвычайно эффективным и гибким при использовании Aspose.PDF Cloud API в сочетании с командами cURL. Эта мощная комбинация не только упрощает процесс преобразования, но также повышает доступность данных и удобство использования в различных приложениях. Теперь давайте рассмотрим некоторые дополнительные подробности об этом преобразовании, поскольку оно облегчает извлечение, обмен и интерпретацию данных.
Первым шагом в этом подходе является создание токена доступа JWT. Итак, выполните следующую команду:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=163c02a1-fcaa-4f79-be54-33012487e783&client_secret=c71cfe618cc6c0944f8f96bdef9813ac" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
После создания токена JWT нам нужно выполнить следующую команду, чтобы преобразовать PDF-файл с тегами в формат XML. После преобразования результирующий XML сохраняется на локальном диске.
curl -v "https://api.aspose.cloud/v3.0/pdf/{sourceFile}/convert/xml" \
-X GET \
-H "accept: multipart/form-data" \
-H "authorization: Bearer {accessToken}" \
-o "Converted.xml"
Замените sourceFile
именем входного PDF-файла, уже доступного в облачном хранилище, и замените accessToken
на токен доступа JWT, созданный выше.
Заключение
В заключение, выбрав надежный Aspose.PDF Cloud SDK для .NET или используя команды cURL в тандеме с Aspose.PDF Cloud, мы можем легко достичь нашей цели — плавного преобразования формата PDF в XML для более эффективного использования данных. Таким образом, независимо от выбранного метода, оба подхода представляют собой мощные инструменты, радикально меняющие способы структурирования и извлечения данных из PDF-файлов.
Полезные ссылки
Статьи по Теме
Мы настоятельно рекомендуем посетить следующие блоги: