提取pdf文本

使用 .NET REST API 從 PDF 中提取文字。

PDF 文件已成為跨各種平台和裝置共享和交換資訊的標準。雖然 PDF 提供安全且一致的格式,但從這些文件中提取重要資料可能是一項艱鉅的任務,尤其是在處理大量資訊時。無論您需要提取文字進行分析、資料輸入或內容操作,可靠且高效的文字擷取解決方案都至關重要。在本文中,我們將深入研究使用 .NET REST API 從 PDF 檔案中提取文字的世界,該 API 由強大的 Aspose.PDF Cloud SDK 提供支援。

用於 PDF 處理的 REST API

Aspose.PDF Cloud SDK for .NET 是一個強大且使用者友好的 API,可簡化 PDF 中的文字擷取。 Aspose.PDF Cloud SDK for .NET 的突出功能之一是能夠處理複雜的 PDF 結構並從具有不同佈局的文件中準確提取文字。無論 PDF 包含文字、圖像、表格或其他複雜元素,API 都可以智慧地瀏覽文件並精確檢索文字內容。因此,強大的功能、準確性和易於整合使其成為在 .NET 應用程式中從 PDF 文件中提取有價值的文字資料的理想選擇。

現在,為了開始使用此功能,第一步是在我們的 .NET 解決方案中新增 Cloud SDK 的參考。因此,在 NuGet 套件管理員中搜尋“Aspose.PDF-Cloud”,然後按一下“新增套件”按鈕。其次,請造訪雲端儀表板並取得您的個人化客戶憑證。

使用 C# .NET 提取 PDF 文本

在本節中,我們將探討以程式設計方式從 PDF 中提取文字的詳細資訊。

// 如需完整範例和數據文件,請訪問 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// 從 https://dashboard.aspose.cloud/ 取得客戶端憑證
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// 建立 PdfApi 的實例
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// 輸入PDF檔名
String inputFile = "Binder1-1.pdf";
// 將PDF檔案的內容讀入流實例
var sourceFile = System.IO.File.OpenRead(inputFile);

// 將PDF檔案上傳至雲端存儲
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// 左下角的X座標
Double LLX = 500.0;
// Y - 左下角座標。
Double LLY = 500.0;
// X - 右上角的座標。
Double URX = 800.0;
// Y - 右上角的座標。
Double URY = 800.0;

// 呼叫API從PDF文檔的某些座標處提取文本
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// 遍歷各個文字出現的狀況
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // 在控制台寫入文字內容
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
提取pdf文本

從 PDF 文件中提取的文字預覽。

下面給出了有關上述程式碼片段的詳細資訊。

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

首先,建立 PdfApi 類別的實例,我們在其中傳遞客戶端憑證作為參數。

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

將輸入 PDF 檔案的內容載入到流實例。

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

將PDF文檔上傳至雲端儲存。

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

呼叫API從PDF檔案中提取特定頁面座標處的文字。

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

迭代包含提取的文字出現的列表,並在控制台中列印文字實例。

使用 cURL 命令解析 PDF 中的文本

將 cURL 命令與 Aspose.PDF Cloud API 結合使用,您可以輕鬆地從雲端儲存上託管的 PDF 檔案中提取文字內容。此 API 支援多種參數來自訂提取過程,可讓您指定座標和其他選項來精確提取文字。

此方法的第一步是在執行以下命令時產生 JWT 存取令牌。

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

產生 JWT 令牌後,請執行下列命令從 PDF 文件中提取文字。

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

將「inputPDF」替換為雲端儲存中已有的 PDF 文件的名稱,將「accessToken」替換為上面產生的 JWT 令牌。

結論

總之,Aspose.PDF Cloud SDK for .NET 和 cURL 命令方法都為從 PDF 文件中提取文字提供了高效可靠的解決方案。 Aspose.PDF Cloud SDK for .NET 提供了全面且對開發人員友好的 API,具有廣泛的功能,使其成為將 PDF 文字提取整合到 .NET 應用程式中的強大選擇。另一方面,cURL 命令方法提供了一種靈活且獨立於平台的方法來與 Aspose.PDF Cloud API 交互,使其成為在不同環境和程式語言中工作的開發人員的絕佳選擇。

有用的連結

相關文章

我們強烈建議您造訪以下部落格: