PDF в ТХТ

Конвертировать PDF в TXT онлайн на Java

Файл PDF является одним из широко используемых форматов для обмена данными и информацией через Интернет. Однако иногда они содержат контент с использованием пользовательских шрифтов, и размер результирующего файла может увеличиться. Кроме того, нам может потребоваться извлечь текстовое содержимое для дальнейшей обработки, поэтому в этом сценарии преобразование PDF в текст является одним из жизнеспособных решений. В этой статье мы подробно обсудим, как мы можем конвертировать PDF в формат TXT.

API преобразования PDF в текст

Aspose.Words Cloud SDK для Java — ведущее решение для обработки документов Word. Это замечательное решение, предоставляющее возможность создавать, редактировать и преобразовывать различные файлы в DOC, HTML, JPEG и различные другие поддерживаемые форматы. Помимо документов Word, он также обеспечивает поддержку загрузки файлов PDF и сохранения вывода в TXT, HTML, XPS, TIFF и т. д. Теперь в Чтобы использовать SDK, добавьте следующие данные в ваш pom.xml вашего типа сборки maven.

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Теперь нам нужно создать бесплатную учетную запись, посетив панель инструментов Aspose.Cloud. Просто зарегистрируйтесь, используя существующую учетную запись GitHub или Google, или нажмите кнопку Создать новую учетную запись.

Преобразование PDF в TXT в Java

Следуйте приведенным ниже инструкциям, чтобы выполнить требования с помощью фрагмента кода Java.

  • Сначала создайте объект WordsApi, используя идентификатор клиента и секрет клиента в качестве параметров.
  • Во-вторых, прочитайте содержимое файла PDF с локального диска, используя объект File.
  • В-третьих, прочитайте содержимое файла PDF с помощью экземпляра UploadFileRequest.
  • Следующим шагом является вызов метода uploadFile(…) для загрузки PDF в облачное хранилище.
  • Теперь создайте объект GetDocumentWithFormatRequest(…), где мы указываем выходной формат как формат TXT.
  • Наконец, вызовите метод getDocumentWithFormat(…), чтобы преобразовать PDF в текст и сохранить результат в облачном хранилище.
// дополнительные примеры см. на странице https://github.com/aspose-words-cloud/aspose-words-cloud-java.

try
    {
    // Получите ClientID и ClientSecret с https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // создать объект WordsApi
    // если baseUrl имеет значение null, WordsApi использует https://api.aspose.cloud по умолчанию.
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // читать содержимое PDF с локального диска
    File file = new File("c://input.pdf");
    
    // создать запрос на загрузку файла
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // загрузить файл в облачное хранилище
    wordsApi.uploadFile(uploadRequest);
        
    // создать объект запроса на преобразование документа
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // Вызов API для преобразования PDF в текст онлайн
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Пожалуйста, используйте следующий фрагмент кода, чтобы загрузить PDF с локального диска и сохранить в формате TXT. После преобразования полученный файл сохраняется в облачном хранилище.

  • Сначала создайте объект WordsApi, используя идентификатор клиента и секрет клиента в качестве параметров.
  • Во-вторых, прочитайте содержимое файла PDF с локального диска, используя объект File.
  • В-третьих, создайте объект ConvertDocumentRequest(…), где мы предоставляем аргументы объекта File, TXT в качестве результирующего формата и путь вывода результирующего TXT-файла.
  • Наконец, вызовите метод convertDocument(…), чтобы преобразовать PDF в текст и сохранить результат в облачном хранилище.
// дополнительные примеры см. на странице https://github.com/aspose-words-cloud/aspose-words-cloud-java.

try
    {
    // Получите ClientID и ClientSecret с https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // создать объект WordsApi
    // если baseUrl имеет значение null, WordsApi использует https://api.aspose.cloud по умолчанию.
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // читать содержимое PDF с локального диска
    File file = new File("c://input.pdf");
           
    // создать объект запроса на преобразование документа
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // Вызов API для преобразования PDF в текстовый формат
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDF в текст

Изображение 1: Предварительный просмотр преобразования PDF в текст в облачном хранилище

PDF в TXT с помощью команд cURL

В этом разделе мы собираемся выполнить преобразование PDF в текст с помощью команд cURL. Теперь в качестве предварительного условия нам нужно сгенерировать токен доступа JWT на основе учетных данных клиента, используя следующую команду.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Теперь выполните следующую команду, чтобы загрузить файл PDF в облачное хранилище.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

Наконец, выполните следующую команду, чтобы преобразовать PDF в текстовый формат.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Вывод

В этой статье объясняются подробности преобразования PDF в текст с использованием фрагмента кода Java. Точно так же мы также изучили шаги по преобразованию PDF в TXT с помощью команд cURL. Для лучшего изучения вы можете изучить API с помощью Swagger UI в веб-браузере.

Если у вас возникнут какие-либо связанные с этим вопросы или возникнут какие-либо проблемы, свяжитесь с нами через бесплатный форум технической поддержки.

Статьи по Теме

Мы настоятельно рекомендуем прочитать следующие статьи, чтобы узнать больше о: