PDF 到 HTML 转换器

使用 Java 将 PDF 转换为 HTML

PDF 是通过 Internet 共享信息和数据的事实标准之一。它受欢迎的原因是在任何平台(包括桌面或移动设备)上查看时,它都能保持文档的布局和保真度。但是,为了查看这些文件,您需要使用 PDF 查看器应用程序。然而,一个简单的解决方法是将 PDF 转换为 HTML 并在 Web 浏览器中轻松加载 HTML。因此在本文中,我们将进一步讨论如何使用 REST API 开发 PDF 到 HTML 转换器的细节。

SXC 到 Excel 转换 API

为了创建、操作和转换 PDF 文件为其他格式,请尝试使用 Aspose.PDF Cloud SDK for Java。现在为了使用 SDK,请在 maven 构建类型项目的 pom.xml 中添加以下信息。

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

现在 Aspose.PDF Cloud SDK for Java 参考已添加到您的项目中,下一步是在 Aspose Cloud 上创建一个免费帐户。使用新创建的帐户登录,并在 Cloud Dashboard 中查找/创建客户端 ID 和客户端密码。后续部分需要这些详细信息。

Java 中的 PDF 到 HTML 转换器

让我们讨论一下如何使用 Java Cloud SDK 开发 PDF 到 HTML 转换器的细节。请注意,在以下代码片段中,在转换操作期间使用了非常基本的参数,但我们强烈建议访问 API 参考 部分以获取所有受支持参数的列表及其相关说明。

  • 首先,我们需要创建一个 PdfApi 对象,同时提供 ClientID 和 Client secret 作为参数
  • 其次,使用 File 实例加载输入 PDF 文件
  • 第三,使用 uploadFile(…) 方法将输入的 PDF 上传到云存储
  • 因为我们只需要转换 PDF 的第二页,所以我们在 List 对象中提供第二页值
  • 现在调用 putPdfInStorageToHtml(…) 方法,需要输入 PDF、结果 HTML 的名称和各种其他转换参数
try
    {
    // 从 https://dashboard.aspose.cloud/ 获取 ClientID 和 ClientSecret
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // 创建 PdfApi 的实例
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
 
    // 输入 PDF 文档的名称 
    String inputFile = "PdfWithScreenAnnotations.pdf";
    // 生成的 HTML 文件的名称
    String resultantImage = "Resultant.html";
	  
    // 读取输入PDF文件的内容
    File file = new File("//Users//"+inputFile);
	    
    // 上传PDF到云存储
    pdfApi.uploadFile("input.pdf", file, null);
	       
    // 要转换的 PDF 页面列表
    List<Integer> list = new ArrayList<Integer>();
    //列表.添加(1);
    list.add(2);  // only convert second page of PDF
	    
    // 调用 PDF 到 HTML 转换的 API
    pdfApi.putPdfInStorageToHtml("input.pdf",resultant,null,null,null, null, "Html5",false, null, 
	null, null, false, false, null, null,null, list, null,
	"AlwaysSaveAsTTF",null,null,null,"EmbedAllIntoHtml","AsEmbeddedPartsOfPngPageBackground",
	null, null, null, null, null, null, null, null, null, "Zip");
	    
    // 打印成功信息
    System.out.println("PDF to HTML Successsul !");
    }catch(Exception ex)
    {
	System.out.println(ex);
    }
PDF 到 HTML 转换器

Image1:- PDF 到 HTML 转换预览

上例中使用的示例 PDF 文件可以从 PdfWithScreenAnnotations.pdf 下载

使用 cURL 命令将 PDF 转换为 HTML

cURL 命令也是通过命令行终端访问 REST API 的便捷方式之一。现在,此方法的先决条件是在执行以下命令时生成 JWT 访问令牌(基于客户端凭据)。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

获得 JWT 令牌后,我们需要执行以下命令将 PDF 转换为 HTML。生成的 HTML 在云存储上保存为 Zip 存档。

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/input.pdf/convert/html?outPath=resultant.zip&documentType=Html5&fixedLayout=false&splitCssIntoPages=false&splitIntoPages=false&explicitListOfSavedPages=2&fontSavingMode=AlwaysSaveAsTTF&partsEmbeddingMode=EmbedAllIntoHtml&rasterImagesSavingMode=AsEmbeddedPartsOfPngPageBackground&outputFormat=Zip" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

结论

我们已经学习了使用 Java Cloud SDK 开发 PDF 到 HTML 转换器的步骤。因此,我们可以使用 Jave 代码片段将 PDF 转换为 HTML,也可以使用 cULR 命令将 PDF 转换为 HTML5。如果您想对 Java Cloud SDK 的源代码进行任何更改,可以从 GitHub 下载完整的源代码。您可以考虑通过免费的 产品支持论坛 联系我们以快速解决问题。

相关文章

我们强烈建议访问以下链接以了解更多信息: