PDF в TXT

Конвертуйте PDF у TXT онлайн на Java

Файл PDF є одним із широко використовуваних форматів для обміну даними та інформацією в Інтернеті. Однак іноді вони вміщують вміст із використанням спеціальних шрифтів, і розмір отриманого файлу може збільшитися. Крім того, нам може знадобитися витягти текстовий вміст для подальшої обробки, тому в цьому сценарії перетворення PDF-файлу в текст є одним із життєздатних рішень. У цій статті ми збираємося обговорити деталі того, як ми можемо конвертувати PDF у формат TXT.

API перетворення PDF у текст

Aspose.Words Cloud SDK для Java є провідним рішенням для обробки документів Word. Це дивовижне рішення, яке надає можливості створювати, редагувати та перетворювати різноманітні файли в DOC, HTML, JPEG та різні інші підтримувані формати. Окрім документів Word, він також підтримує завантаження PDF-файлів і збереження результатів у TXT, HTML, XPS, TIFF тощо. Тепер, щоб використовувати SDK, будь ласка, додайте такі відомості до вашого pom.xml вашого типу збірки maven.

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Тепер нам потрібно створити безкоштовний обліковий запис, відвідавши інформаційну панель Aspose.Cloud. Просто зареєструйтеся, використовуючи наявний обліковий запис GitHub або Google, або натисніть кнопку Створити новий обліковий запис.

Перетворення PDF на TXT у Java

Дотримуйтеся наведених нижче інструкцій, щоб виконати свої вимоги за допомогою фрагмента коду Java.

  • Спочатку створіть об’єкт WordsApi, використовуючи ідентифікатор клієнта та секрет клієнта як параметри
  • По-друге, прочитайте вміст PDF-файлу з локального диска за допомогою об’єкта File
  • По-третє, прочитайте вміст PDF-файлу за допомогою екземпляра UploadFileRequest
  • Наступним кроком є виклик методу uploadFile(…) для завантаження PDF-файлу в хмарне сховище
  • Тепер створіть об’єкт GetDocumentWithFormatRequest(…), де ми вкажемо вихідний формат як формат TXT
  • Нарешті, викличте метод getDocumentWithFormat(…), щоб перетворити PDF на текст і зберегти результат у хмарному сховищі.
// для отримання додаткових прикладів відвідайте https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Отримайте ClientID і ClientSecret з https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // створити об’єкт WordsApi
    // якщо baseUrl має значення null, WordsApi використовує https://api.aspose.cloud за замовчуванням
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // читати вміст PDF-файлу з локального диска
    File file = new File("c://input.pdf");
    
    // створити запит на завантаження файлу
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // завантажити файл у хмарне сховище
    wordsApi.uploadFile(uploadRequest);
        
    // створити об'єкт запиту на перетворення документа
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // Виклик API для конвертації PDF у текст онлайн
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Скористайтеся наведеним нижче фрагментом коду, щоб завантажити PDF-файл із локального диска та зберегти його у форматі TXT. Після перетворення отриманий файл зберігається в хмарному сховищі.

  • Спочатку створіть об’єкт WordsApi, використовуючи ідентифікатор клієнта та секрет клієнта як параметри
  • По-друге, прочитайте вміст PDF-файлу з локального диска за допомогою об’єкта File
  • По-третє, створіть об’єкт ConvertDocumentRequest(…), де ми надамо аргументи об’єкта File, TXT як результуючий формат і вихідний шлях результуючого файлу TXT
  • Нарешті, викличте метод convertDocument(…), щоб перетворити PDF на текст і зберегти результат у хмарному сховищі.
// для отримання додаткових прикладів відвідайте https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Отримайте ClientID і ClientSecret з https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // створити об’єкт WordsApi
    // якщо baseUrl має значення null, WordsApi використовує https://api.aspose.cloud за замовчуванням
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // читати вміст PDF-файлу з локального диска
    File file = new File("c://input.pdf");
           
    // створити об'єкт запиту на перетворення документа
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // Виклик API для перетворення PDF у текстовий формат
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDF в текст

Зображення 1: - Попередній перегляд перетворення PDF у текст у хмарному сховищі

PDF у TXT за допомогою команд cURL

У цьому розділі ми збираємося виконати перетворення PDF у текст за допомогою команд cURL. Тепер, як передумова, нам потрібно створити маркер доступу JWT на основі облікових даних клієнта за допомогою такої команди.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Тепер виконайте наступну команду, щоб завантажити PDF-файл у хмарне сховище.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

Нарешті, виконайте наведену нижче команду, щоб перетворити PDF у текстовий формат.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Висновок

У цій статті описано деталі перетворення PDF-файлу на текст за допомогою фрагмента коду Java. Подібним чином ми вивчили кроки для перетворення PDF у TXT за допомогою команд cURL. Для кращого навчання ви можете дослідити API за допомогою Swagger UI у веб-переглядачі.

Якщо у вас виникнуть пов’язані запитання чи проблеми, зв’яжіться з нами через безкоштовний форум технічної підтримки.

Схожі статті

Ми наполегливо рекомендуємо переглянути такі статті, щоб дізнатися більше про: