Một cách nhanh chóng và dễ dàng để trích xuất các trang từ tài liệu Word bằng Python SDK.

tách tài liệu word | Trích xuất các trang từ tài liệu Word thành một tệp riêng biệt
Trong lĩnh vực quản lý tài liệu, thường nảy sinh nhu cầu phân chia, tách biệt hoặc trích xuất các phần cụ thể từ một tài liệu Word. Cho dù bạn đang xử lý các bài nghiên cứu mở rộng, báo cáo toàn diện hay bản thảo dài, thì nhiệm vụ chia nhỏ chúng thành các phần dễ quản lý hơn có thể tốn thời gian và đầy thách thức. Trong bài viết này, chúng ta sẽ khám phá các bước để đạt được yêu cầu này với Python Cloud SDK, cho phép bạn hợp lý hóa các tác vụ quản lý tài liệu và làm việc hiệu quả hơn.
- API xử lý văn bản
- Chia trang trong tài liệu Word bằng Python
- Chia tài liệu dựa trên các trang đã chọn
- Trích xuất các trang từ tài liệu Word bằng lệnh cURL
API xử lý văn bản
Aspose.Words Cloud là giải pháp chuyên dụng của chúng tôi để xử lý MS Word (DOCX, DOC, DOT, RTF, DOCM) hoặc OpenDocument (ODT, OTT).Không cần phần mềm của bên thứ ba hoặc tự động hóa MS Office để xử lý tài liệu Word. Chỉ cần gọi API REST để đáp ứng các yêu cầu của bạn. Vì các API dựa trên REST, nên bạn có thể truy cập chúng trên mọi nền tảng bao gồm Máy tính để bàn, Web, Ứng dụng di động, v.v. Bây giờ theo phạm vi của bài viết này, chúng ta sẽ thảo luận chi tiết về cách chia các trang trong tệp Word thành một tài liệu Word riêng lẻ. API cũng cung cấp tính linh hoạt để tùy chỉnh hoạt động chia, tức là Chia mọi trang, lẻ và chẵn, theo số trang, theo phạm vi trang.
Để tạo điều kiện thuận lợi hơn cho khách hàng, chúng tôi đã tạo ra Aspose.Words Cloud SDK for Python, là một wrapper xung quanh Cloud API, để bạn có thể tận dụng mọi lợi ích của việc xử lý tài liệu Word trong ngôn ngữ lập trình yêu thích của mình. Vì vậy, trước khi tiến hành tiếp, bước đầu tiên là cài đặt SDK trên hệ thống cục bộ. Bạn có thể tải xuống SDK tại PIP và GitHub. Thực hiện lệnh sau trên terminal dòng lệnh để cài đặt SDK:
pip install aspose-words-cloud
Trong trường hợp bạn đang sử dụng Visual Studio làm IDE, bạn có thể trực tiếp thêm tham chiếu SDK vào dự án.
Nhấp vào tùy chọn View ->Other Windows ->Python Environments. Như hiển thị bên dưới.

Hình ảnh 1:- Tùy chọn menu Môi trường Python.
Nhập aspose-word-cloud vào trường Packages trong cửa sổ Python Environments. Sau đó nhấp vào liên kết Install aspose-word-cloud (21.11.0).Số phiên bản có thể thay đổi tùy thuộc vào phiên bản phát hành mới nhất/hiện tại. Xem hình ảnh bên dưới.

Hình ảnh 2:- gói python aspose-words-cloud.
Chia trang trong tài liệu Word bằng Python
Vui lòng làm theo hướng dẫn bên dưới để tách tất cả các trang trong một tài liệu Word đã có sẵn trên bộ nhớ đám mây.
- Đầu tiên, chúng ta cần khởi tạo một đối tượng của WordsApi trong khi truyền Client ID và Client Secret làm đối số.
- Thứ hai, chỉ định tên của tệp Word đầu vào, định dạng đầu ra, tên của tệp kết quả và tham số để nén tệp đầu ra.
- Tải tài liệu Word đầu vào lên bộ nhớ đám mây bằng cách sử dụng đối tượng UploadFileRequest.
- Bây giờ hãy tạo một phiên bản của SplitDocumentRequest trong khi truyền các thông tin chi tiết được xác định ở bước thứ hai.
- Cuối cùng, gọi phương thức splitdocument(…) của lớp WordsApi để chia nhỏ các tài liệu Word. Các tệp kết quả được lưu trong bộ nhớ đám mây được ánh xạ.
try:
# tạo một phiên bản của WordsApi
words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")
# Tên của tài liệu đầu vào
inputFileName = 'source.doc'
# định dạng tập tin kết quả
resultantFormat = 'DOCX'
# Tên của tài liệu kết quả sau khi thực hiện thao tác. Nếu tham số này bị bỏ qua
# sau đó tập tin kết quả sẽ được lưu với tên của tài liệu đầu vào
resultantFile = 'Split-File'
# Cờ cho biết có nên ZIP đầu ra hay không.
zipOutput = 'false'
# Tải tài liệu Word nguồn lên Cloud Storage
words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))
# Tạo một đối tượng để chia tách tài liệu
request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
None, resultantFile,None, None, zipOutput, None)
# khởi tạo hoạt động Tách từ
result = words_api.split_document(request)
# in tin nhắn trong bảng điều khiển (tùy chọn)
print('Document Split process completed successfully !')
except ApiException as e:
print("Exception while calling WordsApi: {0}".format(e))

Hình ảnh 3:- Xem trước thao tác Chia tài liệu.
Chia tài liệu dựa trên các trang đã chọn
Trong phần này, chúng ta sẽ thảo luận chi tiết về cách chia tài liệu dựa trên các trang đã chọn và lưu đầu ra dưới dạng tệp ZIP. Đoạn mã gần giống như đã chia sẻ ở trên ngoại trừ chúng ta cần chỉ định giá trị Page From, Page To và True để đầu ra được lưu trữ.
try:
# tạo một phiên bản của WordsApi
words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")
# Tên của tài liệu đầu vào
inputFileName = 'source.doc'
# định dạng tập tin kết quả
resultantFormat = 'DOCX'
# Tên của tài liệu kết quả sau khi thực hiện thao tác. Nếu tham số này bị bỏ qua
# sau đó tập tin kết quả sẽ được lưu với tên của tài liệu đầu vào
resultantFile = 'SplitOutput'
# Cờ biểu thị đầu ra sẽ nằm trong kho lưu trữ ZIP.
zipOutput = 'false'
# Tải tài liệu Word nguồn lên Cloud Storage
words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))
# Tạo một đối tượng để chia tách tài liệu
request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
None, resultantFile,pageFrom, pageTo, zipOutput, None)
# khởi tạo hoạt động Tách từ
result = words_api.split_document(request)
# in tin nhắn trong bảng điều khiển (tùy chọn)
print('Document Split process completed successfully !')
except ApiException as e:
print("Exception while calling WordsApi: {0}".format(e))

Hình ảnh 4:- Xem trước thao tác Chia tài liệu cho các trang đã chọn.
Trích xuất các trang từ tài liệu Word bằng lệnh cURL
Giống như các REST API khác, Aspose.Words Cloud cũng có thể được truy cập thông qua các lệnh cURL trong terminal dòng lệnh. Tuy nhiên, trước khi tiếp tục, trước tiên chúng ta cần tạo mã thông báo truy cập JWT dựa trên thông tin xác thực của Khách hàng.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sau khi tạo xong mã thông báo, vui lòng thực hiện lệnh sau để trích xuất các trang từ tài liệu Word và lưu đầu ra vào bộ nhớ Cloud.
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/source.doc/split?format=DOCX&destFileName=Split-File&from=2&to=4&zipOutput=false" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>"
Phần kết luận
Trong bài viết này, chúng tôi đã khám phá khả năng tạo một trình phân tách tài liệu có thể phân tách tài liệu Word thành các tệp trang riêng lẻ bằng Python SDK. Hơn nữa, theo yêu cầu của bạn, bạn có thể sử dụng Python SDK hoặc trích xuất các trang từ tài liệu Word bằng lệnh cURL. Xin lưu ý rằng chúng tôi tin vào sự phát triển và hợp tác tập thể. Do đó, SDK của chúng tôi được phát triển theo giấy phép MIT và mã nguồn đầy đủ của chúng có sẵn để tải xuống qua Github. Nếu cần, bạn có thể tải xuống và sửa đổi mã theo yêu cầu của mình. Trong trường hợp bạn gặp bất kỳ sự cố nào hoặc có bất kỳ thắc mắc nào khác, vui lòng liên hệ với chúng tôi qua Diễn đàn hỗ trợ sản phẩm miễn phí.
Bài viết liên quan
Chúng tôi khuyên bạn nên truy cập vào các liên kết sau để tìm hiểu thêm về: