我們經常需要將 PDF 轉換為文本文件,以便用於數據分析、搜索索引或內容重用。此外,如果您想要建立一個 PDF 轉文本轉換器、在線自動化 OCR 或從 PDF 文檔中複製文本以進行進一步處理,我們的 REST API 提供了一個可靠且開發者友好的解決方案。

PDF 轉換 API

Aspose.PDF Cloud SDK for .NET 是一個基於雲的 API,可以簡化文件文本提取和 PDF 處理。它智能地處理基於文本和基於圖像的 PDF,以提供準確且結構化的 TXT 格式輸出。

主要功能包括:

  • PDF 到 TXT 文件提取,具備高準確度。
  • 跨平台 REST API — 在 C#、.NET Core 或任何支援 HTTP 的環境中無縫運作。
  • 支援部分擷取 — 定義區域並從特定區域擷取文本。

要開始使用,請通過 NuGet 將 SDK 添加到您的 .NET 專案:

Install-Package Aspose.PDF-Cloud

然後,訪問 Aspose Cloud Dashboard 以獲取您的 Client ID 和 Client Secret 憑證。

使用 C# .NET 進行 PDF 到文本的轉換

讓我們來看看如何使用 .NET REST API 將 PDF 轉換為文本文件。

第 1 步 - 使用客戶端憑證創建 PdfApi 類的實例。

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

步驟 2 - 閱讀輸入的 PDF 文件並上傳到雲端存儲。

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

第 3 步。 - 在 PDF 中指定矩形區域並使用 GetText(...) 方法提取文本。

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

第 4 步 - 遍歷包含文本出現的列表並將其保存到本地磁碟。

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// 如需完整範例和數據檔,請前往 https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// 從 https://dashboard.aspose.cloud/ 獲取客戶端憑證

// 創建 PdfApi 類的實例
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// 將 PDF 上傳到雲端儲存空間
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// 將提取的文本保存在本地
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

使用 cURL 將 PDF 轉換為 TXT 文件

對於那些偏好腳本或跨平台工作流程的開發人員,Aspose.PDF Cloud REST API 也可以使用 cURL 命令訪問。

步驟 1. – 生成訪問令牌:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

步驟 2. – 從 PDF 中提取文本 一旦 JWT 令牌生成後,請執行以下命令以從 PDF 文件中提取文本。

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

此 cURL 命令從您的 PDF 文件中檢索文本內容並將其存儲在 .txt 文件中,使其成為自動化環境中 PDF 轉換為文本文件的理想方法。

嘗試免費 PDF 轉文字轉換器

您是否在尋找無需編碼的 PDF 轉 TXT 轉換? 試試我們的免費 線上 PDF 轉文本轉換器 — 由 Aspose.PDF Cloud 提供支持。只需上傳您的 PDF,幾秒鐘內即可下載提取的文本檔案。

提取PDF中的文本

結論

在這篇文章中,我們學到了將 PDF 轉換為文本對於高效提取和重用信息是至關重要的。使用 Aspose.PDF Cloud,您可以自動化從 PDF 中複製文本的過程,使用在線 OCR 處理掃描的文件,並將數據導出為結構化文本以進行分析或搜索索引。

常見問題 (FAQs)

  1. Can I copy text from PDF programmatically? 絕對是的。該 API 允許您通過檢索所有文本出現的內容或使用坐標從特定區域提取文本來複製 PDF 文件中的文本。

  2. PDF 轉文本和文本轉 PDF 之間有什麼區別? PDF 轉文字將文檔中的文本數據提取出來,而文字轉 PDF 則根據純文本輸入創建新的 PDF 文檔。Aspose.PDF Cloud 支援這兩個操作。

  3. 我需要安裝 Adobe Acrobat 嗎? 不。Aspose.PDF Cloud SDK 獨立於 Adobe Acrobat 或任何其他軟件運行。所有 PDF 轉換為文本的操作都在雲端進行。

  4. 提取的文本對於複雜佈局是否準確? 是的。該 API 可以準確地從多欄佈局、表格和混合內容的 PDF 中提取文本,並在生成的 TXT 文件中保持乾淨且易讀的結構。

有用的連結

相關文章

我們非常推薦訪問以下博客: