從 PDF 中提取文字 |取得 PDF 文字 |下載 PDF 文本

當今的數位世界擁有豐富的信息，從 PDF 文件中提取文字的能力不僅方便，而且必要。想像一下，您正在篩選一份很長的 PDF 文件，尋找研究中引用的關鍵信息，或者您正在管理一個文檔存儲庫，試圖提取數據進行分析。在這些場景以及更多場景中，輕鬆將 PDF 內容轉換為純文字的功能成為了改變遊戲規則的因素。本文探討了使用 Python Cloud SDK 從 PDF 中提取文字的深刻目的和不可否認的好處。這種轉變使個人和組織能夠在資訊至關重要的世界中有效地管理、分析和利用數位內容。

PDF 到文字轉換 REST API
使用 Python 從 PDF 提取文本
使用 cURL 命令將 PDF 轉換為文本

PDF 到文字轉換 REST API

使用 Aspose.PDF Cloud SDK for Python 可以無縫、有效率地從 PDF 文件中提取文字。這個多功能的 SDK 使您能夠輕鬆地將 PDF 內容轉換為純文本，解鎖儲存在這些數位文件中的信息。

可以透過 PIP 和 GitHub 儲存庫免費下載 Cloud SDK。現在在終端機/命令提示字元上執行以下命令來安裝最新版本的 SDK：

 pip install asposepdfcloud

如果您正在使用 PyCharm IDE，您可以直接將 SDK 作為相依性新增至您的專案。

檔案 ->設定 ->專案 ->Python 解釋器 ->asposepdfcloud

安裝後，下一個主要步驟是透過 Aspose.Cloud 儀表板免費訂閱我們的雲端服務。如果您有 GitHub 或 Google 帳戶，只需註冊或點擊建立新帳戶按鈕。現在登入儀表板並取得您的個人化客戶端 ID 和客戶端金鑰詳細資訊。

使用 Python 從 PDF 提取文本

請按照下面給出的說明使用 Python SDK 從 PDF 文件中提取文字。

首先，建立 ApiClient 類別的實例，並提供客戶端 ID 客戶端金鑰作為參數。
其次，建立一個 PdfApi 類別的實例，該實例以 ApiClient 物件作為輸入參數。
現在呼叫方法 gettext(…) 同時提供 LLX、LLY、URX 和 URY 座標。

def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # 建立 PdfApi 實例並傳遞 PdfApiClient 作為參數
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # 呼叫方法提取文本
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # 在控制台中列印訊息(可選)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

如果您需要從文件的特定頁面提取文本，請嘗試使用以 pageNumber 作為參數的 GetPageText API。

使用 cURL 命令將 PDF 轉換為文本

使用 Aspose.PDF Cloud 和 cURL 指令的強大組合，體驗將 PDF 內容無縫轉換為純文字。這種動態整合不僅簡化了 PDF 到文字的轉換，而且還提供了多種優勢，增強了您的文件管理和文字擷取體驗。

請注意，此方法的先決條件是根據您的用戶端憑證產生 JSON Web Token (JWT)。此步驟是強制的，因為我們的 API 只有註冊用戶才能存取。請執行以下命令來產生 JWT 令牌。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

一旦我們有了 JWT 令牌，我們就可以使用以下命令透過提取所有文字內容將 PDF 轉換為文字。輸出將作為純文字檔案保存在本機磁碟機上。

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

上述範例中使用的樣本可以從awesomeTable.pdf下載。

結論

在充斥著數位資訊的世界中，從 PDF 文件中提取文字是一項關鍵要求。在我們對此過程的探索中，我們研究了兩種動態途徑：一種是透過多功能的 Aspose.PDF Cloud SDK for Python，另一個是透過 Aspose.PDF Cloud 和 cURL 命令的強大組合。

這兩種方法都彌合了靜態 PDF 內容和動態文字之間的差距，增強了我們管理、分析和利用數位資訊的方式。無論您選擇複雜的 SDK 還是簡單的 cURL 命令，兩種途徑都可以實現高效的 PDF 到文字轉換，使您能夠解鎖隱藏在 PDF 文件中的大量文字資料。

我們還建議您訪問以下連結以了解更多資訊：

使用 Python REST API 從 PDF 中提取文本

PDF 到文字轉換 REST API

使用 Python 從 PDF 提取文本

使用 cURL 命令將 PDF 轉換為文本

結論

相關文章

PDF 到文字轉換 REST API#

使用 Python 從 PDF 提取文本#

使用 cURL 命令將 PDF 轉換為文本#

結論#

相關文章#

PDF 到文字轉換 REST API

使用 Python 從 PDF 提取文本

使用 cURL 命令將 PDF 轉換為文本

結論

相關文章