我们经常需要将 PDF 转换为文本文件,以用于数据分析、搜索索引或内容再利用。此外,如果您想构建一个 PDF 转文本转换器、在线自动化 OCR 或从 PDF 文档中复制文本以进行进一步处理,我们的 REST API 提供了一个可靠且开发者友好的解决方案。
PDF 转换 API
Aspose.PDF Cloud SDK for .NET 是一个基于云的 API,简化了文档文本提取和 PDF 处理。它智能地处理基于文本和基于图像的 PDF,提供准确且结构化的 TXT 格式输出。
关键特性包括:
- PDF 到 TXT 文件提取具有高准确性。
- 跨平台 REST API — 在 C#、.NET Core 或任何支持 HTTP 的环境中无缝工作。
- 支持部分提取 — 定义区域并从特定区域提取文本。
要开始,请使用 NuGet 将 SDK 添加到您的 .NET 项目中:
Install-Package Aspose.PDF-Cloud
然后,访问 Aspose Cloud Dashboard 以获取您的 Client ID 和 Client Secret 凭据。
使用 C# .NET 进行 PDF 转文本转换
让我们看看如何使用 .NET REST API 将 PDF 转换为文本文件。
第 1 步 - 使用客户端凭据创建 PdfApi
类的实例。
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
步骤 2 - 阅读输入 PDF 文件并上传至云存储。
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
第 3 步 - 在 PDF 中指定矩形区域,并使用 GetText(...)
方法提取文本。
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
第 4 步 - 遍历包含文本出现的列表并将其保存到本地驱动器。
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// 有关完整的示例和数据文件,请访问 https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// 从 https://dashboard.aspose.cloud/ 获取客户凭据
// 创建 PdfApi 类的实例
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// 将 PDF 上传至云存储
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// 将提取的文本保存在本地
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
使用 cURL 将 PDF 转换为 TXT 文件
对于喜欢脚本或跨平台工作流的开发者,Aspose.PDF Cloud REST API 也可以通过 cURL 命令访问。
步骤 1. – 生成访问令牌:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
步骤 2. - 从 PDF 中提取文本 一旦JWT令牌被生成,请执行以下命令以从PDF文档中提取文本。
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
此 cURL 命令从您的 PDF 文件中检索文本内容并将其存储在 .txt 文件中,使其成为自动化环境中 PDF 转文本文件转换的理想方法。
尝试免费的 PDF 转文本转换器
您是否在寻找无需编码的 PDF 到 TXT 转换? 尝试我们的免费 在线 PDF 转换为文本工具 — 由 Aspose.PDF Cloud 提供支持。只需上传您的 PDF,即可在数秒内下载提取的文本文件。

结论
在这篇文章中,我们了解到将 PDF 转换为文本对于有效提取和重用信息至关重要。通过 Aspose.PDF Cloud,您可以自动化从 PDF 中复制文本的过程,使用在线 OCR 处理扫描文件,并将数据导出为结构化文本以进行分析或搜索索引。
常见问题解答 (FAQs)
-
Can I copy text from PDF programmatically? 绝对正确。API 允许您通过检索所有文本出现或使用坐标从特定区域提取来复制 PDF 文件中的文本。
-
PDF 转文本和文本转 PDF 之间有什么区别? PDF 转文本从文档中提取文本数据,而文本转 PDF 从纯文本输入创建一个新的 PDF 文档。Aspose.PDF Cloud 支持这两种操作。
-
我需要安装 Adobe Acrobat 吗? 不。Aspose.PDF Cloud SDK 独立于 Adobe Acrobat 或任何其他软件运作。所有 PDF 到文本转换操作都在云中进行。
-
提取的文本对于复杂布局是否准确? 是的。该 API 可以准确地从多列布局、表格和混合内容的 PDF 中提取文本,保持生成的 TXT 文件中的结构清晰可读。
有用的链接
相关的文章
我们强烈推荐访问以下博客: