在當今數據驅動的世界中,PDF 已成為存儲和共享文檔不可或缺的格式。但是,並非所有 PDF 都易於搜索或編輯,尤其是那些基於圖像的 PDF。在處理文檔時,複製/提取任何文本信息以進行進一步操作確實很困難。幸運的是,借助光學字符識別 (OCR) 技術的強大功能,您可以輕鬆地將圖像 PDF 轉換為可搜索的 PDF。在此技術博客中,我們將探討如何使用各種技術將 OCR PDF 轉換為可搜索的 PDF,並特別關注 REST API。我們還將討論如何從 OCR PDF 中提取文本,讓您全面了解如何利用 OCR 技術來釋放 PDF 文檔的全部潛力。
使用 Java SDK 的 OCR PDF
Aspose.PDF Cloud SDK for Java 是一個強大的基於雲的 API,它提供了廣泛的處理 PDF 文檔的特性和功能。其關鍵功能之一是能夠對 PDF 執行 OCR,這可以大大簡化從基於圖像的 PDF 中提取文本和創建可搜索 PDF 的過程。憑藉其友好的用戶界面和全面的文檔,此 SDK 可以輕鬆地自動執行對 PDF 執行 OCR 的過程,從而節省時間並提高工作效率。
此外,這個基於雲的 API 旨在處理各種輸入格式,甚至可以識別手寫文本,使其成為希望簡化文檔工作流程的企業和開發人員的絕佳選擇。現在第一步是通過在 maven 構建項目的 pom.xml 中添加以下詳細信息來在 Java 項目中添加它的引用。
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
如果您沒有現有帳戶,則需要通過 Aspose Cloud 創建一個免費帳戶。使用新創建的帳戶登錄,並在 Cloud Dashboard 中查找/創建客戶端 ID 和客戶端密碼。後續部分需要這些詳細信息。
使用 Java 將掃描的 PDF 轉換為可搜索的 PDF
本節詳細介紹瞭如何使用 Java 代碼片段將掃描的 PDF 轉換為可搜索的 PDF。請注意,Java Cloud SDK 支持識別以下語言:eng、ara、bel、ben、bul、ces、dan、deu、ell、fin、fra、heb、hin、ind、isl、ita、jpn、kor、nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra 或其組合,例如 eng,rus。
- 首先我們需要創建一個 PdfApi 對象,我們在其中傳遞 ClientID 和 Client secret 詳細信息作為參數
- 其次,創建一個 File 類的實例來加載 Image PDF
- 第三,調用uploadFile(…)方法將輸入的PDF上傳到雲存儲
- 由於我們的圖像 PDF 包含英文文本,因此我們需要創建一個字符串對象,其值為“eng”
- 最後,調用方法 putSearchableDocument(…),它需要一個輸入 PDF 和一個語言代碼作為參數。
一旦成功執行代碼,可搜索的 PDF 將存儲在雲存儲中
try
{
// 從 https://dashboard.aspose.cloud/ 獲取 ClientID 和 ClientSecret
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// 創建PdfApi實例
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// 輸入圖像 PDF 文檔
String name = "ScannedPDF.pdf";
// 從本地系統加載文件
File file = new File(name);
// 上傳文件到雲存儲
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// 圖片PDF中使用的語言
String lang = "eng";
// 對圖像 PDF 文檔執行 OCR
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// 打印成功信息
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
上例中使用的掃描 PDF 可從 BusinessReport.pdf 下載,生成的可搜索 PDF 可從 Converted.pdf 下載
OCR Online 使用 cURL 命令
cURL 命令是調用 REST API 的便捷方法之一。因此,在本節中,我們將使用 cURL 命令在線進行 OCR。現在,作為先決條件,我們需要在執行以下命令時首先生成 JWT 訪問令牌(基於客戶端憑據)。
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
一旦我們有了 JWT 令牌,請執行以下命令在線執行 OCR 並將圖像 PDF 轉換為可搜索的 PDF 文檔。然後將生成的文件存儲在雲存儲中。
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
結論
對 PDF 執行 OCR 是釋放這些文檔全部潛力的關鍵過程。借助 Aspose.PDF Cloud SDK for Java 等基於雲的 OCR 工具,可以簡化和自動化此過程,從而節省時間並提高工作效率。通過利用 OCR 的強大功能,企業和開發人員可以將基於圖像的 PDF 轉換為可搜索的 PDF,使它們更易於搜索、編輯和共享。很明顯,此 API 提供了一系列處理 PDF 的強大特性和功能。按照本技術博客中提供的分步指南,您可以開始在 PDF 上使用 OCR,並將您的文檔工作流程提升到一個新的水平。
您可以考慮使用 swagger 界面 在 Web 瀏覽器中訪問 API。此外,由於我們的 SDK 是在 MIT 許可證下構建的,因此可以從 GitHub 下載完整的源代碼。如果您在使用 API 時遇到任何問題,請隨時通過免費產品支持論壇 與我們聯繫。
相關文章
我們強烈建議訪問以下鏈接以了解更多信息: