OCR PDF 到可搜索的 PDF：使用 Java 的免費在線 OCR PDF

在當今數據驅動的世界中，PDF 已成為存儲和共享文檔不可或缺的格式。但是，並非所有 PDF 都易於搜索或編輯，尤其是那些基於圖像的 PDF。在處理文檔時，複製/提取任何文本信息以進行進一步操作確實很困難。幸運的是，借助光學字符識別 (OCR) 技術的強大功能，您可以輕鬆地將圖像 PDF 轉換為可搜索的 PDF。在此技術博客中，我們將探討如何使用各種技術將 OCR PDF 轉換為可搜索的 PDF，並特別關注 REST API。我們還將討論如何從 OCR PDF 中提取文本，讓您全面了解如何利用 OCR 技術來釋放 PDF 文檔的全部潛力。

使用 Java SDK 的 OCR PDF
使用 Java 將掃描的 PDF 轉換為可搜索的 PDF
OCR Online 使用 cURL 命令

使用 Java SDK 的 OCR PDF

Aspose.PDF Cloud SDK for Java 是一個強大的基於雲的 API，它提供了廣泛的處理 PDF 文檔的特性和功能。其關鍵功能之一是能夠對 PDF 執行 OCR，這可以大大簡化從基於圖像的 PDF 中提取文本和創建可搜索 PDF 的過程。憑藉其友好的用戶界面和全面的文檔，此 SDK 可以輕鬆地自動執行對 PDF 執行 OCR 的過程，從而節省時間並提高工作效率。

此外，這個基於雲的 API 旨在處理各種輸入格式，甚至可以識別手寫文本，使其成為希望簡化文檔工作流程的企業和開發人員的絕佳選擇。現在第一步是通過在 maven 構建項目的 pom.xml 中添加以下詳細信息來在 Java 項目中添加它的引用。

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

如果您沒有現有帳戶，則需要通過 Aspose Cloud 創建一個免費帳戶。使用新創建的帳戶登錄，並在 Cloud Dashboard 中查找/創建客戶端 ID 和客戶端密碼。後續部分需要這些詳細信息。

使用 Java 將掃描的 PDF 轉換為可搜索的 PDF

本節詳細介紹瞭如何使用 Java 代碼片段將掃描的 PDF 轉換為可搜索的 PDF。請注意，Java Cloud SDK 支持識別以下語言：eng、ara、bel、ben、bul、ces、dan、deu、ell、fin、fra、heb、hin、ind、isl、ita、jpn、kor、nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra 或其組合，例如 eng,rus。

首先我們需要創建一個 PdfApi 對象，我們在其中傳遞 ClientID 和 Client secret 詳細信息作為參數
其次，創建一個 File 類的實例來加載 Image PDF
第三，調用uploadFile(…)方法將輸入的PDF上傳到雲存儲
由於我們的圖像 PDF 包含英文文本，因此我們需要創建一個字符串對象，其值為“eng”
最後，調用方法 putSearchableDocument(…)，它需要一個輸入 PDF 和一個語言代碼作為參數。

一旦成功執行代碼，可搜索的 PDF 將存儲在雲存儲中

try
    {
    // 從 https://dashboard.aspose.cloud/ 獲取 ClientID 和 ClientSecret
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // 創建PdfApi實例
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // 輸入圖像 PDF 文檔
    String name = "ScannedPDF.pdf";	        
	    			    
    // 從本地系統加載文件
    File file = new File(name);
    // 上傳文件到雲存儲
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // 圖片PDF中使用的語言
    String lang = "eng";
	    				
    //  對圖像 PDF 文檔執行 OCR
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // 打印成功信息
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }

上例中使用的掃描 PDF 可從 BusinessReport.pdf 下載，生成的可搜索 PDF 可從 Converted.pdf 下載

OCR Online 使用 cURL 命令

cURL 命令是調用 REST API 的便捷方法之一。因此，在本節中，我們將使用 cURL 命令在線進行 OCR。現在，作為先決條件，我們需要在執行以下命令時首先生成 JWT 訪問令牌(基於客戶端憑據)。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

一旦我們有了 JWT 令牌，請執行以下命令在線執行 OCR 並將圖像 PDF 轉換為可搜索的 PDF 文檔。然後將生成的文件存儲在雲存儲中。

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

結論

對 PDF 執行 OCR 是釋放這些文檔全部潛力的關鍵過程。借助 Aspose.PDF Cloud SDK for Java 等基於雲的 OCR 工具，可以簡化和自動化此過程，從而節省時間並提高工作效率。通過利用 OCR 的強大功能，企業和開發人員可以將基於圖像的 PDF 轉換為可搜索的 PDF，使它們更易於搜索、編輯和共享。很明顯，此 API 提供了一系列處理 PDF 的強大特性和功能。按照本技術博客中提供的分步指南，您可以開始在 PDF 上使用 OCR，並將您的文檔工作流程提升到一個新的水平。

您可以考慮使用 swagger 界面在 Web 瀏覽器中訪問 API。此外，由於我們的 SDK 是在 MIT 許可證下構建的，因此可以從 GitHub 下載完整的源代碼。如果您在使用 API 時遇到任何問題，請隨時通過免費產品支持論壇與我們聯繫。

我們強烈建議訪問以下鏈接以了解更多信息：

Java 在線 OCR PDF。將圖像 PDF 轉換為可搜索的 PDF

使用 Java SDK 的 OCR PDF

使用 Java 將掃描的 PDF 轉換為可搜索的 PDF

OCR Online 使用 cURL 命令

結論

相關文章

使用 Java SDK 的 OCR PDF#

使用 Java 將掃描的 PDF 轉換為可搜索的 PDF#

OCR Online 使用 cURL 命令#

結論#

相關文章#

使用 Java SDK 的 OCR PDF

使用 Java 將掃描的 PDF 轉換為可搜索的 PDF

OCR Online 使用 cURL 命令

結論

相關文章