圖像 PDF 到可搜索 PDF

將圖像 PDF 轉換為可搜索的 PDF

在當今數據驅動的世界中,PDF 已成為存儲和共享文檔不可或缺的格式。但是,並非所有 PDF 都易於搜索或編輯,尤其是那些基於圖像的 PDF。在處理文檔時,複製/提取任何文本信息以進行進一步操作確實很困難。幸運的是,借助光學字符識別 (OCR) 技術的強大功能,您可以輕鬆地將圖像 PDF 轉換為可搜索的 PDF。在此技術博客中,我們將探討如何使用各種技術將 OCR PDF 轉換為可搜索的 PDF,並特別關注 REST API。我們還將討論如何從 OCR PDF 中提取文本,讓您全面了解如何利用 OCR 技術來釋放 PDF 文檔的全部潛力。

使用 Java SDK 的 OCR PDF

Aspose.PDF Cloud SDK for Java 是一個強大的基於雲的 API,它提供了廣泛的處理 PDF 文檔的特性和功能。其關鍵功能之一是能夠對 PDF 執行 OCR,這可以大大簡化從基於圖像的 PDF 中提取文本和創建可搜索 PDF 的過程。憑藉其友好的用戶界面和全面的文檔,此 SDK 可以輕鬆地自動執行對 PDF 執行 OCR 的過程,從而節省時間並提高工作效率。

此外,這個基於雲的 API 旨在處理各種輸入格式,甚至可以識別手寫文本,使其成為希望簡化文檔工作流程的企業和開發人員的絕佳選擇。現在第一步是通過在 maven 構建項目的 pom.xml 中添加以下詳細信息來在 Java 項目中添加它的引用。

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

如果您沒有現有帳戶,則需要通過 Aspose Cloud 創建一個免費帳戶。使用新創建的帳戶登錄,並在 Cloud Dashboard 中查找/創建客戶端 ID 和客戶端密碼。後續部分需要這些詳細信息。

使用 Java 將掃描的 PDF 轉換為可搜索的 PDF

本節詳細介紹瞭如何使用 Java 代碼片段將掃描的 PDF 轉換為可搜索的 PDF。請注意,Java Cloud SDK 支持識別以下語言:eng、ara、bel、ben、bul、ces、dan、deu、ell、fin、fra、heb、hin、ind、isl、ita、jpn、kor、nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra 或其組合,例如 eng,rus。

  • 首先我們需要創建一個 PdfApi 對象,我們在其中傳遞 ClientID 和 Client secret 詳細信息作為參數
  • 其次,創建一個 File 類的實例來加載 Image PDF
  • 第三,調用uploadFile(…)方法將輸入的PDF上傳到雲存儲
  • 由於我們的圖像 PDF 包含英文文本,因此我們需要創建一個字符串對象,其值為“eng”
  • 最後,調用方法 putSearchableDocument(…),它需要一個輸入 PDF 和一個語言代碼作為參數。

一旦成功執行代碼,可搜索的 PDF 將存儲在雲存儲中

try
    {
    // 從 https://dashboard.aspose.cloud/ 獲取 ClientID 和 ClientSecret
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // 創建PdfApi實例
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // 輸入圖像 PDF 文檔
    String name = "ScannedPDF.pdf";	        
	    			    
    // 從本地系統加載文件
    File file = new File(name);
    // 上傳文件到雲存儲
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // 圖片PDF中使用的語言
    String lang = "eng";
	    				
    //  對圖像 PDF 文檔執行 OCR
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // 打印成功信息
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
圖像 PDF 到可搜索 PDF

圖 1:- 可搜索的 PDF 預覽

上例中使用的掃描 PDF 可從 BusinessReport.pdf 下載,生成的可搜索 PDF 可從 Converted.pdf 下載

OCR Online 使用 cURL 命令

cURL 命令是調用 REST API 的便捷方法之一。因此,在本節中,我們將使用 cURL 命令在線進行 OCR。現在,作為先決條件,我們需要在執行以下命令時首先生成 JWT 訪問令牌(基於客戶端憑據)。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

一旦我們有了 JWT 令牌,請執行以下命令在線執行 OCR 並將圖像 PDF 轉換為可搜索的 PDF 文檔。然後將生成的文件存儲在雲存儲中。

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

結論

對 PDF 執行 OCR 是釋放這些文檔全部潛力的關鍵過程。借助 Aspose.PDF Cloud SDK for Java 等基於雲的 OCR 工具,可以簡化和自動化此過程,從而節省時間並提高工作效率。通過利用 OCR 的強大功能,企業和開發人員可以將基於圖像的 PDF 轉換為可搜索的 PDF,使它們更易於搜索、編輯和共享。很明顯,此 API 提供了一系列處理 PDF 的強大特性和功能。按照本技術博客中提供的分步指南,您可以開始在 PDF 上使用 OCR,並將您的文檔工作流程提升到一個新的水平。

您可以考慮使用 swagger 界面 在 Web 瀏覽器中訪問 API。此外,由於我們的 SDK 是在 MIT 許可證下構建的,因此可以從 GitHub 下載完整的源代碼。如果您在使用 API 時遇到任何問題,請隨時通過免費產品支持論壇 與我們聯繫。

相關文章

我們強烈建議訪問以下鏈接以了解更多信息: