
Trích xuất văn bản từ PDF bằng .NET REST API.
Các tài liệu PDF đã trở thành tiêu chuẩn để chia sẻ và trao đổi thông tin trên nhiều nền tảng và thiết bị khác nhau. Mặc dù PDF cung cấp định dạng an toàn và nhất quán, nhưng việc trích xuất dữ liệu cần thiết từ các tài liệu này có thể là một nhiệm vụ khó khăn, đặc biệt là khi xử lý khối lượng thông tin lớn. Cho dù bạn cần trích xuất văn bản để phân tích, nhập dữ liệu hay thao tác nội dung, thì giải pháp trích xuất văn bản đáng tin cậy và hiệu quả là rất quan trọng. Trong bài viết này, chúng ta sẽ đi sâu vào thế giới trích xuất văn bản từ các tệp PDF bằng .NET REST API, được hỗ trợ bởi Aspose.PDF Cloud SDK mạnh mẽ.
REST API để xử lý PDF
Aspose.PDF Cloud SDK cho .NET là một API mạnh mẽ và thân thiện với người dùng giúp đơn giản hóa việc trích xuất văn bản từ PDF. Một trong những tính năng nổi bật của Aspose.PDF Cloud SDK cho .NET là khả năng xử lý các cấu trúc PDF phức tạp và trích xuất chính xác văn bản từ các tài liệu có nhiều bố cục khác nhau. Cho dù PDF có chứa văn bản, hình ảnh, bảng hay các thành phần phức tạp khác, API đều có thể điều hướng thông minh qua tài liệu và truy xuất nội dung văn bản một cách chính xác. Do đó, các tính năng mạnh mẽ, độ chính xác và dễ tích hợp khiến đây trở thành lựa chọn lý tưởng để trích xuất dữ liệu văn bản có giá trị từ các tài liệu PDF trong các ứng dụng .NET của họ.
Bây giờ, để bắt đầu với tính năng này, bước đầu tiên là thêm tham chiếu của Cloud SDK vào giải pháp .NET của chúng tôi. Vì vậy, hãy tìm kiếm Aspose.PDF-Cloud
trong trình quản lý gói NuGet và nhấp vào nút Add Package
. Thứ hai, hãy truy cập cloud dashboard và lấy thông tin xác thực khách hàng được cá nhân hóa của bạn.
Trích xuất văn bản PDF bằng C# .NET
Trong phần này, chúng ta sẽ khám phá chi tiết cách trích xuất văn bản từ PDF theo chương trình.
// Để biết ví dụ đầy đủ và tệp dữ liệu, vui lòng truy cập
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Nhận thông tin xác thực của khách hàng từ https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// tạo một phiên bản của PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Nhập tên tệp PDF
String inputFile = "Binder1-1.pdf";
// Đọc nội dung của tệp PDF vào phiên bản luồng
var sourceFile = System.IO.File.OpenRead(inputFile);
// Tải tệp PDF lên bộ nhớ đám mây
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// Tọa độ X của góc dưới bên trái
Double LLX = 500.0;
// Y - tọa độ của góc dưới bên trái.
Double LLY = 500.0;
// X - tọa độ của góc trên bên phải.
Double URX = 800.0;
// Y - tọa độ của góc trên bên phải.
Double URY = 800.0;
// Gọi API để trích xuất văn bản từ các tọa độ nhất định trên tài liệu PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Duyệt qua từng Văn bản Xuất hiện
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// viết nội dung văn bản trong bảng điều khiển
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Xem trước văn bản được trích xuất từ tài liệu PDF.
Dưới đây là thông tin chi tiết về đoạn mã nêu trên.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Đầu tiên, tạo một phiên bản của lớp PdfApi trong đó chúng ta truyền thông tin xác thực của khách hàng làm đối số.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
Tải nội dung của tệp PDF đầu vào vào luồng phiên bản.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Tải tài liệu PDF lên bộ nhớ đám mây.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Gọi API để trích xuất văn bản từ tệp PDF ở tọa độ trang nhất định.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Lặp lại danh sách chứa các văn bản đã trích xuất và in các trường hợp văn bản đó trong bảng điều khiển.
Phân tích văn bản từ PDF bằng lệnh cURL
Sử dụng lệnh cURL kết hợp với Aspose.PDF Cloud API, bạn có thể dễ dàng trích xuất nội dung văn bản từ các tệp PDF được lưu trữ trên bộ lưu trữ đám mây. API hỗ trợ nhiều tham số khác nhau để tùy chỉnh quy trình trích xuất, cho phép bạn chỉ định tọa độ và các tùy chọn khác để trích xuất văn bản một cách chính xác.
Bước đầu tiên với cách tiếp cận này là tạo mã thông báo truy cập JWT trong khi thực hiện lệnh sau.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sau khi mã thông báo JWT được tạo, vui lòng thực hiện lệnh sau để kéo văn bản từ tài liệu PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
Thay thế inputPDF
bằng tên của tài liệu PDF đã có trong bộ nhớ đám mây và accessToken
bằng mã thông báo JWT được tạo ở trên.
Phần kết luận
Tóm lại, cả Aspose.PDF Cloud SDK cho .NET và phương pháp tiếp cận lệnh cURL đều cung cấp các giải pháp hiệu quả và đáng tin cậy để trích xuất văn bản từ các tài liệu PDF. Aspose.PDF Cloud SDK cho .NET cung cấp một API toàn diện và thân thiện với nhà phát triển với nhiều tính năng, khiến nó trở thành lựa chọn mạnh mẽ để tích hợp trích xuất văn bản PDF vào các ứng dụng .NET. Mặt khác, phương pháp tiếp cận lệnh cURL cung cấp một phương pháp linh hoạt và độc lập với nền tảng để tương tác với Aspose.PDF Cloud API, khiến nó trở thành lựa chọn tuyệt vời cho các nhà phát triển làm việc trong các môi trường và ngôn ngữ lập trình khác nhau.
Liên kết hữu ích
Bài viết liên quan
Chúng tôi thực sự khuyên bạn nên ghé thăm các blog sau: