pdf 轉文本

如何使用 Python 將 PDF 轉換為文本

當今的數位世界擁有豐富的信息,從 PDF 文件中提取文字的能力不僅方便,而且必要。想像一下,您正在篩選一份很長的 PDF 文件,尋找研究中引用的關鍵信息,或者您正在管理一個文檔存儲庫,試圖提取數據進行分析。在這些場景以及更多場景中,輕鬆將 PDF 內容轉換為純文字的功能成為了改變遊戲規則的因素。本文探討了使用 Python Cloud SDK 從 PDF 中提取文字的深刻目的和不可否認的好處。這種轉變使個人和組織能夠在資訊至關重要的世界中有效地管理、分析和利用數位內容。

PDF 到文字轉換 REST API

使用 Aspose.PDF Cloud SDK for Python 可以無縫、有效率地從 PDF 文件中提取文字。這個多功能的 SDK 使您能夠輕鬆地將 PDF 內容轉換為純文本,解鎖儲存在這些數位文件中的信息。

可以透過 PIPGitHub 儲存庫免費下載 Cloud SDK。現在在終端機/命令提示字元上執行以下命令來安裝最新版本的 SDK:

 pip install asposepdfcloud

如果您正在使用 PyCharm IDE,您可以直接將 SDK 作為相依性新增至您的專案。

檔案 ->設定 ->專案 ->Python 解釋器 ->asposepdfcloud

安裝後,下一個主要步驟是透過 Aspose.Cloud 儀表板 免費訂閱我們的雲端服務。如果您有 GitHub 或 Google 帳戶,只需註冊或點擊 建立新帳戶 按鈕。現在登入儀表板並取得您的個人化客戶端 ID 和客戶端金鑰詳細資訊。

使用 Python 從 PDF 提取文本

請按照下面給出的說明使用 Python SDK 從 PDF 文件中提取文字。

  • 首先,建立 ApiClient 類別的實例,並提供客戶端 ID 客戶端金鑰作為參數。
  • 其次,建立一個 PdfApi 類別的實例,該實例以 ApiClient 物件作為輸入參數。
  • 現在呼叫方法 gettext(…) 同時提供 LLX、LLY、URX 和 URY 座標。
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # 建立 PdfApi 實例並傳遞 PdfApiClient 作為參數
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # 呼叫方法提取文本
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # 在控制台中列印訊息(可選)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF 到文字轉換預覽

圖 1:PDF 到文字預覽。

如果您需要從文件的特定頁面提取文本,請嘗試使用以 pageNumber 作為參數的 GetPageText API。

使用 cURL 命令將 PDF 轉換為文本

使用 Aspose.PDF Cloud 和 cURL 指令的強大組合,體驗將 PDF 內容無縫轉換為純文字。這種動態整合不僅簡化了 PDF 到文字的轉換,而且還提供了多種優勢,增強了您的文件管理和文字擷取體驗。

請注意,此方法的先決條件是根據您的用戶端憑證產生 JSON Web Token (JWT)。此步驟是強制的,因為我們的 API 只有註冊用戶才能存取。請執行以下命令來產生 JWT 令牌。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

一旦我們有了 JWT 令牌,我們就可以使用以下命令透過提取所有文字內容將 PDF 轉換為文字。輸出將作為純文字檔案保存在本機磁碟機上。

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

上述範例中使用的樣本可以從awesomeTable.pdf下載。

結論

在充斥著數位資訊的世界中,從 PDF 文件中提取文字是一項關鍵要求。在我們對此過程的探索中,我們研究了兩種動態途徑:一種是透過多功能的 Aspose.PDF Cloud SDK for Python,另一個是透過 Aspose.PDF Cloud 和 cURL 命令的強大組合。

這兩種方法都彌合了靜態 PDF 內容和動態文字之間的差距,增強了我們管理、分析和利用數位資訊的方式。無論您選擇複雜的 SDK 還是簡單的 cURL 命令,兩種途徑都可以實現高效的 PDF 到文字轉換,使您能夠解鎖隱藏在 PDF 文件中的大量文字資料。

相關文章

我們還建議您訪問以下連結以了解更多資訊: