图像 PDF 到可搜索 PDF

将图像 PDF 转换为可搜索的 PDF

对于书籍/文件的长期存档,最快的方法之一是将它们扫描为图像。此外,如果您需要将它们保存为小册子,可以将所有图像合并为一个统一的 PDF 文档。但是,如果 PDF 文档由图像组成,则很难复制/提取任何文本信息以进行进一步操作。因此,在本文中,我们将详细讨论如何使用 Java 云 SDK 对 PDF 文件进行 OCR 以及将不可搜索的 PDF 转换为可搜索的 PDF。

OCR PDF Java SDK

为了创建、操作 PDF 文件并将其转换为各种支持的格式,我们开发了 Aspose.PDF Cloud。现在,为了在 Java 应用程序中实现 OCR PDF Free,我们需要尝试使用 Aspose.PDF Cloud SDK for Java,它是 Java Cloud API 的包装器。现在使用 SDK 的第一步是安装。所以请在 maven 构建类型项目的 pom.xml 中添加以下详细信息。

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

添加 JDK 参考后,请在 Aspose Cloud 上创建一个免费帐户。使用新创建的帐户登录,并在 Cloud Dashboard 中查找/创建客户端 ID 和客户端密码。后续部分需要这些详细信息。

使用 Java 将扫描的 PDF 转换为可搜索的 PDF

本节详细介绍了如何使用 Java 代码片段将扫描的 PDF 转换为可搜索的 PDF。请注意,Java Cloud SDK 支持识别以下语言:eng、ara、bel、ben、bul、ces、dan、deu、ell、fin、fra、heb、hin、ind、isl、ita、jpn、kor、nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra 或其组合,例如 eng,rus。

  • 第一步是创建一个 PdfApi 对象,该对象将 ClientID 和 Client secret 详细信息作为参数
  • 其次,创建一个文件实例来加载OCR PDF
  • 第三,调用 uploadFile(…) 方法将输入的 PDF 上传到云存储
  • 由于我们的图像 PDF 包含英文文本,因此我们需要创建一个字符串对象,其值为“eng”
  • 最后,调用需要输入 PDF 和语言代码作为参数的 putSearchableDocument(…) 方法。生成的可搜索 PDF 存储在同一云存储中
try
    {
    // 从 https://dashboard.aspose.cloud/ 获取 ClientID 和 ClientSecret
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // 创建PdfApi实例
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // 输入图像 PDF 文档
    String name = "ScannedPDF.pdf";	        
	    			    
    // 从本地系统加载文件
    File file = new File(name);
    // 上传文件到云存储
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // 图片PDF中使用的语言
    String lang = "eng";
	    				
    //  对图像 PDF 文档执行 OCR
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // 打印成功信息
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
图像 PDF 到可搜索 PDF

图 1:- 可搜索的 PDF 预览

上例中使用的扫描 PDF 可以从 BusinessReport.pdf 下载,生成的可搜索 PDF 从 Converted.pdf 下载

OCR Online 使用 cURL 命令

cURL 命令是通过命令行终端访问 REST API 的便捷方法之一。因此,在本节中,我们将使用 cURL 命令在线进行 OCR。现在作为先决条件,我们需要在执行以下命令时首先生成 JWT 访问令牌(基于客户端凭据)。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

一旦我们有了 JWT 令牌,请执行以下命令在线执行 OCR 并将图像 PDF 转换为可搜索的 PDF 文档。然后将生成的文件存储在云存储中。

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

结论

在本文中,我们讨论了使用 Java Cloud SDK 将图像 PDF 转换为可搜索 PDF 的一些简单但令人惊叹的步骤。因此,我们可以选择使用 Java 代码片段或 cURL 命令来完成 OCR PDF。除了这种方法,您还可以考虑通过 swagger 接口 在 Web 浏览器中访问 API。此外,由于我们的 SDK 是在 MIT 许可证下构建的,因此可以从 GitHub 下载完整的源代码。如果您在使用 API 时遇到任何问题,请随时通过 产品支持论坛 与我们联系。

相关文章

我们强烈建议访问以下链接以了解更多信息: