Tệp PDF là một trong những định dạng được sử dụng rộng rãi để chia sẻ dữ liệu và thông tin qua internet. Tuy nhiên, đôi khi nội dung của chúng sử dụng phông chữ tùy chỉnh và kích thước của tệp kết quả có thể tăng lên. Hơn nữa, chúng tôi có thể có yêu cầu trích xuất nội dung văn bản để xử lý thêm, vì vậy trong trường hợp này, việc chuyển đổi PDF sang Văn bản là một trong những giải pháp khả thi. Trong bài viết này, chúng tôi sẽ thảo luận chi tiết về cách chúng tôi có thể chuyển đổi định dạng PDF sang TXT.
API chuyển đổi PDF sang văn bản
Aspose.Words Cloud SDK cho Java là giải pháp hàng đầu để xử lý tài liệu Word. Đó là một giải pháp tuyệt vời cung cấp khả năng tạo, chỉnh sửa và chuyển đổi nhiều loại tệp thành DOC, HTML, JPEG và nhiều định dạng được hỗ trợ khác. Ngoài các tài liệu Word, nó còn hỗ trợ tải các tệp PDF và lưu đầu ra thành TXT, HTML, XPS, TIFF, v.v. để sử dụng SDK, vui lòng thêm các chi tiết sau vào tệp pom.xml của loại bản dựng maven của bạn.
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.cloud/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words-cloud</artifactId>
<version>22.5.0</version>
</dependency>
</dependencies>
Bây giờ chúng tôi cần tạo một tài khoản miễn phí bằng cách truy cập Bảng điều khiển Aspose.Cloud. Chỉ cần Đăng ký bằng tài khoản GitHub hoặc Google hiện tại của bạn hoặc nhấp vào nút Tạo tài khoản mới.
Chuyển đổi PDF sang TXT trong Java
Vui lòng làm theo các hướng dẫn bên dưới để thực hiện các yêu cầu của bạn bằng cách sử dụng đoạn mã Java.
- Đầu tiên, tạo một đối tượng của WordsApi bằng ID ứng dụng khách và Bí mật ứng dụng khách làm tham số
- Thứ hai, đọc nội dung tệp PDF từ ổ đĩa cục bộ bằng đối tượng Tệp
- Thứ ba, đọc nội dung của tệp PDF bằng cách sử dụng phiên bản UploadFileRequest
- Bước tiếp theo là gọi phương thức uploadFile(…) để tải tệp PDF lên bộ nhớ đám mây
- Bây giờ, hãy tạo một đối tượng GetDocumentWithFormatRequest(…) nơi chúng tôi chỉ định định dạng đầu ra là định dạng TXT
- Cuối cùng, gọi phương thức getDocumentWithFormat(…) để chuyển đổi PDF thành Văn bản và lưu đầu ra trong bộ nhớ Đám mây.
// để biết thêm ví dụ, vui lòng truy cập https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Nhận ClientID và ClientSecret từ https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// tạo một đối tượng của WordsApi
// nếu baseUrl là null, WordsApi sử dụng https://api.aspose.cloud mặc định
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// đọc nội dung của PDF từ ổ đĩa cục bộ
File file = new File("c://input.pdf");
// tạo yêu cầu tải lên tập tin
UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
// tải tệp lên bộ nhớ đám mây
wordsApi.uploadFile(uploadRequest);
// tạo đối tượng yêu cầu chuyển đổi tài liệu
GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
// Gọi API để chuyển đổi PDF sang Văn bản trực tuyến
wordsApi.getDocumentWithFormat(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
Vui lòng sử dụng đoạn mã sau để tải PDF từ ổ đĩa cục bộ và lưu thành định dạng TXT. Sau khi chuyển đổi, tệp kết quả được lưu trong bộ nhớ đám mây.
- Đầu tiên, tạo một đối tượng của WordsApi bằng ID ứng dụng khách và Bí mật ứng dụng khách làm tham số
- Thứ hai, đọc nội dung tệp PDF từ ổ đĩa cục bộ bằng đối tượng Tệp
- Thứ ba, tạo một đối tượng ConvertDocumentRequest(…) nơi chúng tôi cung cấp các đối số của đối tượng Tệp, TXT làm định dạng kết quả và đường dẫn đầu ra của tệp TXT kết quả
- Cuối cùng, gọi phương thức convertDocument(…) để chuyển đổi PDF thành Văn bản và lưu kết quả đầu ra trong Bộ lưu trữ đám mây
// để biết thêm ví dụ, vui lòng truy cập https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Nhận ClientID và ClientSecret từ https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// tạo một đối tượng của WordsApi
// nếu baseUrl là null, WordsApi sử dụng https://api.aspose.cloud mặc định
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// đọc nội dung của PDF từ ổ đĩa cục bộ
File file = new File("c://input.pdf");
// tạo đối tượng yêu cầu chuyển đổi tài liệu
ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
// Gọi API để chuyển đổi định dạng PDF sang Văn bản
wordsApi.convertDocument(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
PDF sang TXT bằng lệnh cURL
Trong phần này, chúng ta sẽ thực hiện chuyển đổi PDF sang Văn bản bằng các lệnh cURL. Bây giờ là điều kiện tiên quyết, chúng tôi cần tạo mã thông báo truy cập JWT dựa trên thông tin đăng nhập của khách hàng bằng cách sử dụng lệnh sau.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Bây giờ hãy thực hiện lệnh sau để tải tệp PDF lên bộ nhớ đám mây.
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>" \
-H "Content-Type: multipart/form-data" \
-d {"fileContent":{}}
Cuối cùng, thực hiện lệnh sau để chuyển đổi định dạng PDF sang Văn bản.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Sự kết luận
Bài viết này giải thích chi tiết về cách chuyển đổi PDF thành Văn bản bằng đoạn mã Java. Tương tự, chúng ta cũng đã học các bước chuyển đổi PDF sang TXT bằng các lệnh cURL. Để học tốt hơn, bạn có thể khám phá API bằng cách sử dụng Swagger UI trong trình duyệt web.
Nếu bạn có bất kỳ câu hỏi nào liên quan hoặc bạn gặp phải bất kỳ sự cố nào, vui lòng liên hệ với chúng tôi qua [diễn đàn hỗ trợ kỹ thuật] miễn phí 16.
Những bài viết liên quan
Chúng tôi thực sự khuyên bạn nên xem qua các bài viết sau để tìm hiểu thêm về: