PDF 轉 TXT

使用 Java 在線將 PDF 轉換為 TXT

PDF 檔案是網路上廣泛使用的資料和資訊共享格式之一。但是,有時他們會使用自訂字體來處理內容,生成的檔案的大小可能會增加。此外,我們可能需要提取文字內容進行進一步處理,因此在這種情況下,將 PDF 轉換為文字是可行的解決方案之一。在本文中,我們將討論如何將 PDF 轉換為 TXT 格式的細節。

PDF 到文字轉換 API

Aspose.Words Cloud SDK for Java 是領先的 Word 文件處理解決方案。這是一個令人驚嘆的解決方案,能夠創建、編輯和轉換各種文件為 DOCHTMLJPEG 和其他各種 支援的格式。除了 Word 文件之外,它還提供載入 PDF 文件並將輸出保存為 TXTHTMLXPSTIFF 等的支援。

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

現在我們需要透過存取Aspose.Cloud 儀表板來建立一個免費帳戶。只需使用您現有的 GitHub 或 Google 帳戶註冊,或按一下 建立新帳戶 按鈕。

使用 Java 將 PDF 轉換為 TXT

請按照以下說明使用 Java 程式碼片段來滿足您的要求。

  • 首先,使用客戶端 ID 和客戶端金鑰作為參數建立 WordsApi 對象
  • 其次,使用 File 物件從本機磁碟機讀取 PDF 檔案內容
  • 第三,使用 UploadFileRequest 實例讀取 PDF 檔案的內容
  • 下一步是呼叫 uploadFile(…) 方法將 PDF 上傳到雲端存儲
  • 現在,建立一個 GetDocumentWithFormatRequest(…) 對象,我們將輸出格式指定為 TXT 格式
  • 最後,呼叫方法 getDocumentWithFormat(…) 將 PDF 轉換為文字並將輸出保存在雲端儲存中。
// 有關更多範例,請造訪 https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // 從 https://dashboard.aspose.cloud/ 取得 ClientID 和 ClientSecret
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // 建立 WordsApi 對象
    // 如果 baseUrl 為空,WordsApi 將使用預設的 https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // 從本機磁碟機讀取 PDF 的內容
    File file = new File("c://input.pdf");
    
    // 建立文件上傳請求
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // 將文件上傳至雲端存儲
    wordsApi.uploadFile(uploadRequest);
        
    // 建立文檔轉換請求對象
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // 呼叫API在線將PDF轉換為文本
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

請使用以下程式碼片段從本機磁碟機載入 PDF 並儲存為 TXT 格式。轉換後,產生的文件將保存在雲端儲存中。

  • 首先,使用客戶端 ID 和客戶端金鑰作為參數建立 WordsApi 對象
  • 其次,使用 File 物件從本機磁碟機讀取 PDF 檔案內容
  • 第三,建立一個 ConvertDocumentRequest(…) 對象,其中我們提供 File 物件、TXT 作為結果格式以及結果 TXT 檔案的輸出路徑的參數
  • 最後,呼叫方法 convertDocument(…) 將 PDF 轉換為文本,並將輸出保存在雲端儲存中
// 有關更多範例,請造訪 https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // 從 https://dashboard.aspose.cloud/ 取得 ClientID 和 ClientSecret
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // 建立 WordsApi 對象
    // 如果 baseUrl 為空,WordsApi 將使用預設的 https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // 從本機磁碟機讀取 PDF 的內容
    File file = new File("c://input.pdf");
           
    // 建立文檔轉換請求對象
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // 呼叫API將PDF轉換為文字格式
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDF 轉文本

圖 1:雲端儲存中 PDF 到文字轉換的預覽

使用 cURL 指令將 PDF 轉換為 TXT

在本節中,我們將使用 cURL 指令執行 PDF 到文字的轉換。現在作為先決條件,我們需要使用以下命令根據客戶端憑證產生 JWT 存取權杖。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

現在請執行以下命令將PDF檔案上傳到雲端儲存。

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

最後,執行以下命令將PDF轉換為文字格式。

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

結論

本文介紹了使用 Java 程式碼片段將 PDF 轉換為文字的細節。同樣,我們也學習了使用 cURL 指令將 PDF 轉換為 TXT 的步驟。為了更好地學習,您可以在 Web 瀏覽器中使用 Swagger UI 探索 API。

如果您有任何相關疑問或遇到任何問題,請隨時透過免費的技術支援論壇與我們聯絡。

相關文章

我們強烈建議您閱讀以下文章以了解更多資訊: