Chúng tôi thường cần chuyển đổi PDF sang các tệp văn bản để sử dụng trong phân tích dữ liệu, lập chỉ mục tìm kiếm hoặc tái sử dụng nội dung. Ngoài ra, nếu bạn muốn xây dựng một công cụ chuyển đổi PDF sang văn bản, tự động hóa OCR trực tuyến hoặc sao chép văn bản từ các tài liệu PDF để xử lý thêm, API REST của chúng tôi cung cấp một giải pháp đáng tin cậy và thân thiện với lập trình viên.
- API Chuyển đổi PDF
- Chuyển đổi PDF sang Văn bản bằng C# .NET
- Chuyển đổi PDF sang tệp TXT bằng cách sử dụng cURL
API Chuyển đổi PDF
SDK Aspose.PDF Cloud SDK for .NET là một API dựa trên đám mây giúp đơn giản hóa việc trích xuất văn bản tài liệu và xử lý PDF. Nó xử lý thông minh cả PDF dựa trên văn bản và hình ảnh, cung cấp đầu ra chính xác và có cấu trúc ở định dạng TXT.
Các tính năng chính bao gồm:
- Chuyển đổi PDF sang tệp TXT với độ chính xác cao.
- API REST đa nền tảng — hoạt động liền mạch trong C#, .NET Core hoặc bất kỳ môi trường nào có hỗ trợ HTTP.
- Hỗ trợ cho việc trích xuất một phần — xác định các vùng và trích xuất văn bản từ các khu vực cụ thể.
Để bắt đầu, hãy thêm SDK vào dự án .NET của bạn bằng cách sử dụng NuGet:
Install-Package Aspose.PDF-Cloud
Sau đó, hãy truy cập Aspose Cloud Dashboard để lấy ID khách hàng và thông tin bảo mật khách hàng của bạn.
Chuyển đổi PDF sang văn bản sử dụng C# .NET
Hãy cùng xem cách chuyển đổi một tệp PDF thành tệp văn bản trong C# sử dụng .NET REST API.
Bước 1. - Tạo một thể hiện của lớp PdfApi
bằng cách sử dụng thông tin đăng nhập của khách hàng.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Bước 2. - Đọc file PDF đầu vào và tải lên lưu trữ đám mây.
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Bước 3. - Xác định vùng chữ nhật trong PDF và trích xuất văn bản bằng phương thức GetText(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Bước 4. - Lặp qua danh sách chứa các lần xuất hiện của văn bản và lưu nó vào ổ đĩa cục bộ.
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// Để xem các ví dụ đầy đủ và tệp dữ liệu, vui lòng truy cập https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Lấy thông tin xác thực của khách hàng từ https://dashboard.aspose.cloud/
// Tạo một thể hiện của lớp PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// Tải lên PDF lên kho lưu trữ đám mây
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// Lưu văn bản đã trích xuất vào máy tính.
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
Chuyển đổi PDF sang tệp TXT bằng cURL
Đối với các nhà phát triển thích quy trình làm việc theo kịch bản hoặc đa nền tảng, API REST của Aspose.PDF Cloud cũng có thể được truy cập bằng các lệnh cURL.
Bước 1. – Tạo một Mã Truy cập:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Bước 2. – Trích xuất văn bản từ PDF Khi token JWT đã được tạo, vui lòng thực hiện lệnh sau để kéo văn bản từ tài liệu PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
Lệnh cURL này truy xuất nội dung văn bản từ tệp PDF của bạn và lưu nó vào tệp .txt, khiến nó trở thành một phương pháp lý tưởng để chuyển đổi từ PDF sang tệp văn bản trong các môi trường tự động.
Thử Công cụ Chuyển đổi PDF sang Văn bản Miễn phí
Bạn có đang tìm kiếm chuyển đổi PDF sang TXT mà không cần lập trình không? Hãy thử Trình chuyển đổi PDF sang văn bản trực tuyến miễn phí của chúng tôi — được cung cấp bởi Aspose.PDF Cloud. Chỉ cần tải lên PDF của bạn và tải xuống tệp văn bản đã được trích xuất trong vài giây.

Kết luận
Trong bài viết này, chúng ta đã học rằng việc chuyển đổi PDF sang văn bản là rất cần thiết để trích xuất và tái sử dụng thông tin một cách hiệu quả. Với Aspose.PDF Cloud, bạn có thể tự động hóa quy trình sao chép văn bản từ các tệp PDF, xử lý các tệp quét bằng cách sử dụng OCR trực tuyến và xuất dữ liệu dưới dạng văn bản có cấu trúc để phân tích hoặc lập chỉ mục tìm kiếm.
Câu hỏi thường gặp (FAQs)
-
Can I copy text from PDF programmatically? Chắc chắn rồi. API cho phép bạn sao chép văn bản từ các tệp PDF bằng cách lấy tất cả các lượt xuất hiện của văn bản hoặc trích xuất từ các khu vực cụ thể sử dụng tọa độ.
-
Sự khác biệt giữa PDF sang văn bản và văn bản sang PDF là gì? PDF to text trích xuất dữ liệu văn bản từ tài liệu, trong khi text to PDF tạo một tài liệu PDF mới từ đầu vào văn bản thuần túy. Aspose.PDF Cloud hỗ trợ cả hai thao tác.
-
Tôi có cần cài đặt Adobe Acrobat không? Không. Aspose.PDF Cloud SDK hoạt động độc lập với Adobe Acrobat hoặc bất kỳ phần mềm nào khác. Tất cả các thao tác chuyển đổi PDF sang văn bản diễn ra trong đám mây.
-
Liệu văn bản được trích xuất có chính xác cho các bố cục phức tạp không? Có. API có thể trích xuất chính xác văn bản từ các bố cục nhiều cột, bảng và PDF có nội dung hỗn hợp, duy trì một cấu trúc sạch sẽ và dễ đọc trong tệp TXT kết quả.
Các liên kết hữu ích
Bài viết liên quan
Chúng tôi rất khuyến nghị bạn nên ghé thăm các blog sau: