提取pdf文本

使用 .NET REST API 从 PDF 中提取文本。

PDF 文档已成为跨各种平台和设备共享和交换信息的标准。虽然 PDF 提供安全且一致的格式,但从这些文档中提取重要数据可能是一项艰巨的任务,尤其是在处理大量信息时。无论您需要提取文本进行分析、数据输入还是内容操作,可靠且高效的文本提取解决方案都至关重要。在本文中,我们将深入研究使用 .NET REST API 从 PDF 文件中提取文本的世界,该 API 由强大的 Aspose.PDF Cloud SDK 提供支持。

用于 PDF 处理的 REST API

Aspose.PDF Cloud SDK for .NET 是一个强大且用户友好的 API,可简化 PDF 中的文本提取。 Aspose.PDF Cloud SDK for .NET 的突出功能之一是能够处理复杂的 PDF 结构并从具有不同布局的文档中准确提取文本。无论 PDF 包含文本、图像、表格还是其他复杂元素,API 都可以智能地浏览文档并精确检索文本内容。因此,强大的功能、准确性和易于集成使其成为在 .NET 应用程序中从 PDF 文档中提取有价值的文本数据的理想选择。

现在,为了开始使用此功能,第一步是在我们的 .NET 解决方案中添加 Cloud SDK 的引用。因此,在 NuGet 包管理器中搜索“Aspose.PDF-Cloud”,然后单击“添加包”按钮。其次,访问云仪表板并获取您的个性化客户凭据。

使用 C# .NET 提取 PDF 文本

在本节中,我们将探讨以编程方式从 PDF 中提取文本的详细信息。

// 如需完整示例和数据文件,请访问 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// 从 https://dashboard.aspose.cloud/ 获取客户端凭据
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// 创建 PdfApi 的实例
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// 输入PDF文件名
String inputFile = "Binder1-1.pdf";
// 将PDF文件的内容读入流实例
var sourceFile = System.IO.File.OpenRead(inputFile);

// 将PDF文件上传至云存储
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// 左下角的X坐标
Double LLX = 500.0;
// Y - 左下角坐标。
Double LLY = 500.0;
// X - 右上角的坐标。
Double URX = 800.0;
// Y - 右上角的坐标。
Double URY = 800.0;

// 调用API从PDF文档的某些坐标处提取文本
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// 遍历各个文本出现的情况
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // 在控制台写入文本内容
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
提取pdf文本

从 PDF 文档中提取的文本预览。

下面给出了有关上述代码片段的详细信息。

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

首先,创建 PdfApi 类的实例,我们在其中传递客户端凭据作为参数。

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

将输入 PDF 文件的内容加载到流实例。

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

将PDF文档上传至云存储。

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

调用API从PDF文件中提取特定页面坐标处的文本。

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

迭代包含提取的文本出现的列表,并在控制台中打印文本实例。

使用 cURL 命令解析 PDF 中的文本

将 cURL 命令与 Aspose.PDF Cloud API 结合使用,您可以轻松地从云存储上托管的 PDF 文件中提取文本内容。该 API 支持多种参数来自定义提取过程,允许您指定坐标和其他选项来精确提取文本。

此方法的第一步是在执行以下命令时生成 JWT 访问令牌。

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

生成 JWT 令牌后,请执行以下命令从 PDF 文档中提取文本。

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

将“inputPDF”替换为云存储中已有的 PDF 文档的名称,将“accessToken”替换为上面生成的 JWT 令牌。

结论

总之,Aspose.PDF Cloud SDK for .NET 和 cURL 命令方法都为从 PDF 文档中提取文本提供了高效可靠的解决方案。 Aspose.PDF Cloud SDK for .NET 提供了全面且对开发人员友好的 API,具有广泛的功能,使其成为将 PDF 文本提取集成到 .NET 应用程序中的强大选择。另一方面,cURL 命令方法提供了一种灵活且独立于平台的方法来与 Aspose.PDF Cloud API 交互,使其成为在不同环境和编程语言中工作的开发人员的绝佳选择。

有用的链接

相关文章

我们强烈建议访问以下博客: