使用 Python SDK 從 Word 文件中提取頁面的快速簡便的方法。

拆分 word 文檔 |從 Word 文件中提取頁面作為單獨的文件
在文件管理領域,經常需要從 Word 文件中劃分、分離或提取特定部分。無論您處理大量研究論文、綜合報告還是長篇手稿,將它們分解為更易於管理的部分都是一項既耗時又具有挑戰性的任務。在本文中,我們將探討使用 Python Cloud SDK 實現此要求的步驟,讓您簡化文件管理任務並更有效率地工作。
文字處理API
Aspose.Words Cloud 是我們針對 MS Word (DOCX, DOC, DOT, RTF, DOCM) 或 OpenDocument (ODT, OTT) 處理而特別提供的解決方案。無需第三方軟體或 MS Office 自動化來處理 Word 文件。只需呼叫 REST API 即可滿足您的要求。由於 API 是基於 REST 的,因此您可以在任何平台上存取它們,包括桌面、Web、行動應用程式等。 API 還提供了自訂拆分操作的靈活性,即按頁數、按頁面範圍拆分每一頁(奇數和偶數)。
為了進一步方便我們的客戶,我們創建了 Aspose.Words Cloud SDK for Python,它是 Cloud API 的包裝器,因此您可以使用您最喜歡的程式語言享受 Word 文件處理的所有好處。因此,在繼續進行之前,第一步是在本機系統上安裝 SDK。它可以在PIP和GitHub下載。在命令列終端執行以下命令安裝SDK:
pip install aspose-words-cloud
如果您使用Visual Studio作為IDE,您可以直接在專案中新增SDK的參考。
按一下檢視 ->其他視窗 ->Python 環境選項。如下圖所示。

圖 1:- Python 環境選單選項。
在 Python 環境視窗的套件欄位下輸入 aspose-word-cloud。然後點選安裝 aspose-word-cloud (21.11.0) 連結。版本號碼可能會根據最新/目前發布的版本而變更。參見下圖。

圖 2:- aspose-words-cloud python 套件。
使用 Python 在 Word 文件中拆分頁面
請依照下列說明拆分雲端儲存中已有的 Word 文件中的所有頁面。
- 首先,我們需要初始化 WordsApi 的物件並傳遞客戶端 ID 和客戶端金鑰作為參數。
- 其次,指定輸入的 Word 檔案的名稱、結果輸出格式、結果檔案的名稱以及對輸出進行 zip 檔案的參數。
- 使用 UploadFileRequest 物件將輸入的 Word 文件上傳到雲端儲存。
- 現在建立 SplitDocumentRequest 的實例,同時傳遞第二步驟中定義的詳細資訊。
- 最後呼叫WordsApi類別的splitdocument(…)方法對word文檔進行拆分。生成的文件保存在映射的雲端儲存中。
try:
# 建立 WordsApi 實例
words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")
# 輸入word文件名稱
inputFileName = 'source.doc'
# 產生的文件格式
resultantFormat = 'DOCX'
# 操作後得到的文檔的名稱。如果省略此參數
# 然後結果文件將以輸入文件的名稱儲存
resultantFile = 'Split-File'
# 指示是否對輸出進行 ZIP 處理的標誌。
zipOutput = 'false'
# 將來源 Word 文件上傳到雲端存儲
words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))
# 建立物件來分割文檔
request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
None, resultantFile,None, None, zipOutput, None)
# 啟動 Word Split 操作
result = words_api.split_document(request)
# 在控制台中列印訊息(可選)
print('Document Split process completed successfully !')
except ApiException as e:
print("Exception while calling WordsApi: {0}".format(e))

圖 3:文檔拆分操作的預覽。
根據選定頁面拆分文檔
在本節中,我們將討論如何根據選定的頁面拆分文件並將輸出儲存為 ZIP 存檔的詳細資訊。程式碼片段幾乎與上面共享的相同,只是我們需要指定要存檔的輸出的頁面來源、頁面目的地和真值。
try:
# 建立 WordsApi 實例
words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")
# 輸入word文件名稱
inputFileName = 'source.doc'
# 產生的文件格式
resultantFormat = 'DOCX'
# 操作後得到的文檔的名稱。如果省略此參數
# 然後結果文件將以輸入文件的名稱儲存
resultantFile = 'SplitOutput'
# 指示輸出的標誌應在 ZIP 檔案中。
zipOutput = 'false'
# 將來源 Word 文件上傳到雲端存儲
words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))
# 建立物件來分割文檔
request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
None, resultantFile,pageFrom, pageTo, zipOutput, None)
# 啟動 Word Split 操作
result = words_api.split_document(request)
# 在控制台中列印訊息(可選)
print('Document Split process completed successfully !')
except ApiException as e:
print("Exception while calling WordsApi: {0}".format(e))

圖 4:- 選定頁面的文件拆分操作預覽。
使用 cURL 命令從 Word 文件中提取頁面
與其他 REST API 一樣,Aspose.Words Cloud 也可以透過命令列終端內的 cURL 命令存取。但是,在繼續之前,我們需要先根據客戶端憑證產生 JWT 存取權杖。
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
產生令牌後,請執行下列命令從 Word 文件中提取頁面並將輸出保存在雲端儲存中。
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/source.doc/split?format=DOCX&destFileName=Split-File&from=2&to=4&zipOutput=false" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>"
結論
在本文中,我們探討了使用 Python SDK 建立文件分割器的可能性,該分割器可以將 Word 文件分割為單獨的頁面檔案。此外,根據您的要求,您可以使用 Python SDK 或使用 cURL 命令從 Word 文件中提取頁面。請注意,我們相信集體成長和合作。因此,我們的 SDK 是根據 MIT 許可證開發的,其完整的原始程式碼可透過 Github 下載。如果需要,您可以根據您的要求下載並修改程式碼。如果您遇到任何問題或有任何疑問,請隨時透過免費產品支援論壇與我們聯繫。
相關文章
我們建議您訪問以下連結以了解更多資訊: