PDF文字識別

PDF 文件在互聯網上廣泛用於信息和數據共享。它們非常受歡迎,因為它們在任何平台上查看時都能保持文檔的保真度。但是,我們無法控制源,並且某些文件以掃描格式共享。有時您將圖像捕獲為 PDF,稍後您需要從文件中提取內容。所以一個可行的解決方案是執行OCR操作並提取文本。但是,在OCR操作之後,如果您需要保存文件,那麼轉換為PDF格式是一個可行的解決方案。在本文中,我們將討論如何使用 Python 將掃描的 PDF 轉換為文本 PDF 的步驟。

OCR PDF API

Aspose.PDF Cloud SDK for PythonAspose.PDF Cloud 的包裝器。它使您能夠在 Python 應用程序中執行所有 PDF 文件處理功能。無需 Adobe Acrobat 或任何其他應用程序即可處理 PDF 文件。因此,要使用 SDK,第一步是安裝,可通過 PIPGitHub 存儲庫下載。現在在終端/命令提示符下執行以下命令以在系統上安裝最新版本的 SDK。

 pip install asposepdfcloud

微軟視覺工作室

您也可以直接在 Visual Studio 項目中的 Python 項目中添加引用。請在Python環境窗口下搜索asposepdfcloud作為包。請按照下圖中編號的步驟完成安裝過程。

Aspose.PDF 雲 Python

圖片 1:- Aspose.PDF Cloud SDK for Python 包。

Aspose.Cloud 儀錶盤

由於我們的 API 僅供授權人員訪問,因此下一步是在 Aspose.Cloud 儀表板 上創建一個帳戶。如果您有 GitHub 或 Google 帳戶,只需註冊或單擊 創建新帳戶 按鈕並提供所需信息。現在使用憑據登錄儀表板並從儀表板展開應用程序部分並向下滾動到客戶端憑據部分以查看客戶端 ID 和客戶端密碼詳細信息。

客戶憑證

圖 2:- Aspose.Cloud 儀表板上的客戶端憑證。

在 Python 中將圖像 PDF 轉換為可搜索的 PDF

請按照以下步驟對掃描的 PDF 文檔執行 OCR 操作,然後將其保存為可搜索的(使 pdf 可搜索)。這些步驟幫助我們使用 Python 開發免費的在線 OCR。

  • 首先,我們需要創建一個 ApiClient 類的實例,同時提供 Client ID Client Secret 作為參數
  • 其次,創建一個 PdfApi 類的實例,它將 ApiClient 對像作為輸入參數
  • 現在調用 PdfApi 類的 putsearchabledocument(..) 方法,它接受輸入 PDF 名稱和一個可選參數,指示 OCR 引擎的語言。
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # 在將 PdfApiClient 作為參數傳遞時創建 PdfApi 實例
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # 調用API進行OCR操作並將輸出結果保存在雲端
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # 在控制台中打印消息(可選)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR 預覽

圖 3:- PDF OCR 操作預覽。

在上圖中,左側部分錶示輸入的掃描 PDF 文件,右側部分顯示生成的基於文本的 PDF 的預覽。上述示例中使用的示例文件可以從 image-based-pdf-sample.pdfOCR-Result.pdf 下載。

使用 cURL 命令在線進行 OCR

REST API 也可以通過 cURL 命令訪問,由於我們的 Cloud API 基於 REST 架構,因此我們也可以使用 cURL 命令在線執行 PDF OCR。但是,在繼續轉換操作之前,我們需要根據您在 Aspose.Cloud 儀表板上指定的個人客戶端憑據生成一個 JSON Web 令牌 (JWT)。這是強制性的,因為我們的 API 僅供註冊用戶訪問。請執行以下命令生成 JWT 令牌。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

一旦我們有了 JWT 令牌,請執行以下命令來執行 OCR 操作並將輸出保存在同一個雲存儲中。

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

結論

在本文中,我們討論了使用 Python 代碼片段將圖像 PDF 轉換為可搜索 PDF 的步驟。我們還探討瞭如何使用 cURL 命令在線執行 OCR 的詳細信息。由於我們的雲 SDK 是在 MIT 許可下開發的,因此您可以從 GitHub 下載完整的代碼片段並根據您的要求進行更新。我們強烈建議您瀏覽 開發人員指南,以了解有關 Cloud API 當前提供的其他令人興奮的功能的更多信息。

如果您有任何相關疑問或在使用我們的 API 時遇到任何問題,請隨時通過免費客戶支持論壇 與我們聯繫。

相關文章

我們還建議您閱讀以下文章以了解更多信息