我们经常需要将 PDF 转换为文本文件,以用于数据分析、搜索索引或内容再利用。此外,如果您想构建一个 PDF 转文本转换器、在线自动化 OCR 或从 PDF 文档中复制文本以进行进一步处理,我们的 REST API 提供了一个可靠且开发者友好的解决方案。

PDF 转换 API

Aspose.PDF Cloud SDK for .NET 是一个基于云的 API,简化了文档文本提取和 PDF 处理。它智能地处理基于文本和基于图像的 PDF,提供准确且结构化的 TXT 格式输出。

关键特性包括:

  • PDF 到 TXT 文件提取具有高准确性。
  • 跨平台 REST API — 在 C#、.NET Core 或任何支持 HTTP 的环境中无缝工作。
  • 支持部分提取 — 定义区域并从特定区域提取文本。

要开始,请使用 NuGet 将 SDK 添加到您的 .NET 项目中:

Install-Package Aspose.PDF-Cloud

然后,访问 Aspose Cloud Dashboard 以获取您的 Client ID 和 Client Secret 凭据。

使用 C# .NET 进行 PDF 转文本转换

让我们看看如何使用 .NET REST API 将 PDF 转换为文本文件。

第 1 步 - 使用客户端凭据创建 PdfApi 类的实例。

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

步骤 2 - 阅读输入 PDF 文件并上传至云存储。

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

第 3 步 - 在 PDF 中指定矩形区域,并使用 GetText(...) 方法提取文本。

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

第 4 步 - 遍历包含文本出现的列表并将其保存到本地驱动器。

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// 有关完整的示例和数据文件,请访问 https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// 从 https://dashboard.aspose.cloud/ 获取客户凭据

// 创建 PdfApi 类的实例
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// 将 PDF 上传至云存储
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// 将提取的文本保存在本地
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

使用 cURL 将 PDF 转换为 TXT 文件

对于喜欢脚本或跨平台工作流的开发者,Aspose.PDF Cloud REST API 也可以通过 cURL 命令访问。

步骤 1. – 生成访问令牌:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

步骤 2. - 从 PDF 中提取文本 一旦JWT令牌被生成,请执行以下命令以从PDF文档中提取文本。

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

此 cURL 命令从您的 PDF 文件中检索文本内容并将其存储在 .txt 文件中,使其成为自动化环境中 PDF 转文本文件转换的理想方法。

尝试免费的 PDF 转文本转换器

您是否在寻找无需编码的 PDF 到 TXT 转换? 尝试我们的免费 在线 PDF 转换为文本工具 — 由 Aspose.PDF Cloud 提供支持。只需上传您的 PDF,即可在数秒内下载提取的文本文件。

从PDF中提取文本

结论

在这篇文章中,我们了解到将 PDF 转换为文本对于有效提取和重用信息至关重要。通过 Aspose.PDF Cloud,您可以自动化从 PDF 中复制文本的过程,使用在线 OCR 处理扫描文件,并将数据导出为结构化文本以进行分析或搜索索引。

常见问题解答 (FAQs)

  1. Can I copy text from PDF programmatically? 绝对正确。API 允许您通过检索所有文本出现或使用坐标从特定区域提取来复制 PDF 文件中的文本。

  2. PDF 转文本和文本转 PDF 之间有什么区别? PDF 转文本从文档中提取文本数据,而文本转 PDF 从纯文本输入创建一个新的 PDF 文档。Aspose.PDF Cloud 支持这两种操作。

  3. 我需要安装 Adobe Acrobat 吗? 不。Aspose.PDF Cloud SDK 独立于 Adobe Acrobat 或任何其他软件运作。所有 PDF 到文本转换操作都在云中进行。

  4. 提取的文本对于复杂布局是否准确? 是的。该 API 可以准确地从多列布局、表格和混合内容的 PDF 中提取文本,保持生成的 TXT 文件中的结构清晰可读。

有用的链接

相关的文章

我们强烈推荐访问以下博客: