Un approccio rapido e semplice per estrarre pagine da documenti Word utilizzando Python SDK.

documento word diviso

dividi documento word | Estrai pagine dal documento Word come file separato

Nel regno della gestione dei documenti, spesso sorge la necessità di dividere, separare o estrarre sezioni specifiche da un documento Word. Che tu abbia a che fare con documenti di ricerca estesi, report completi o manoscritti lunghi, il compito di suddividerli in parti più gestibili può essere sia dispendioso in termini di tempo che impegnativo. In questo articolo, esploreremo i passaggi per soddisfare questo requisito con Python Cloud SDK, consentendoti di semplificare le tue attività di gestione dei documenti e lavorare in modo più efficiente.

API di elaborazione testi

Aspose.Words Cloud è la nostra soluzione dedicata per l’elaborazione di MS Word (DOCX, DOC, DOT, RTF, DOCM) o OpenDocument (ODT, OTT).Non è necessario alcun software di terze parti o automazione di MS Office per elaborare documenti Word. Basta chiamare le API REST per soddisfare i tuoi requisiti. Poiché le API sono basate su REST, puoi accedervi su qualsiasi piattaforma, inclusi Desktop, Web, App mobile, ecc. Ora, secondo lo scopo di questo articolo, discuteremo i dettagli su come dividere le pagine in un file Word come un singolo documento Word. L’API fornisce anche la flessibilità di personalizzare l’operazione di divisione, ovvero dividere ogni pagina, dispari e pari, in base al numero di pagine, per intervallo di pagine.

Per facilitare ulteriormente i nostri clienti, abbiamo creato Aspose.Words Cloud SDK per Python, che è un wrapper attorno a Cloud API, così puoi sfruttare tutti i vantaggi dell’elaborazione dei documenti Word nel tuo linguaggio di programmazione preferito. Quindi, prima di procedere oltre, il primo passo è l’installazione di SDK sul sistema locale. È disponibile per il download su PIP e GitHub. Esegui il seguente comando sul terminale della riga di comando per installare SDK:

pip install aspose-words-cloud

Se si utilizza Visual Studio come IDE, è possibile aggiungere direttamente il riferimento dell’SDK nel progetto.

Fare clic sull’opzione Visualizza ->Altre finestre ->Ambienti Python. Come mostrato di seguito.

Opzione di menu Ambiente Python.

Immagine 1:- Opzione di menu Ambiente Python.

Inserisci aspose-word-cloud nel campo Packages nella finestra Python Environments. Quindi fai clic sul link Install aspose-word-cloud (21.11.0).Il numero di versione potrebbe cambiare a seconda della versione di rilascio più recente/attuale. Guarda l’immagine qui sotto.

pacchetto python aspose-words-cloud

Immagine 2: pacchetto Python aspose-words-cloud.

Dividi le pagine in un documento Word usando Python

Per dividere tutte le pagine di un documento Word già disponibile nell’archiviazione cloud, seguire le istruzioni riportate di seguito.

  • Per prima cosa, dobbiamo inizializzare un oggetto di WordsApi passando Client ID e Client Secret come argomenti.
  • In secondo luogo, specificare il nome del file Word di input, il formato di output risultante, il nome del file risultante e il parametro per archiviare in formato zip l’output.
  • Carica il documento Word di input nell’archivio cloud utilizzando l’oggetto UploadFileRequest.
  • Ora crea un’istanza di SplitDocumentRequest passando i dettagli definiti nel secondo passaggio.
  • Infine, chiama il metodo splitdocument(…) della classe WordsApi per dividere i documenti Word. I file risultanti vengono salvati nell’archivio cloud mappato.
try:
        # creare un'istanza di WordsApi
        words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")

        # Nome del documento Word di input
        inputFileName = 'source.doc'
        # formato file risultante
        resultantFormat = 'DOCX'
        # Nome del documento risultante dopo l'operazione. Se questo parametro viene omesso
        # quindi il file risultante verrà salvato con il nome del documento di input
        resultantFile = 'Split-File'
        # Flag che indica se comprimere l'output.
        zipOutput = 'false'

        # Carica il documento Word di origine su Cloud Storage
        words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))

        # Crea un oggetto per dividere il documento
        request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
                                                                                    None, resultantFile,None, None, zipOutput, None)
        # avviare l'operazione di divisione delle parole
        result = words_api.split_document(request)
        
        # stampa messaggio nella console (facoltativo)
        print('Document Split process completed successfully !')    
    except ApiException as e:
        print("Exception while calling WordsApi: {0}".format(e))
Anteprima dell'operazione di divisione del documento

Immagine 3: Anteprima dell’operazione di divisione del documento.

Dividi documento in base alle pagine selezionate

In questa sezione, discuteremo i dettagli su come dividere un documento in base alle pagine selezionate e salvare l’output come archivio ZIP. Il frammento di codice è quasi lo stesso di quello condiviso sopra, tranne per il fatto che dobbiamo specificare i valori Page From, Page To e True per l’output da archiviare.

try:
        # creare un'istanza di WordsApi
        words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")

        # Nome del documento Word di input
        inputFileName = 'source.doc'
        # formato file risultante
        resultantFormat = 'DOCX'
        # Nome del documento risultante dopo l'operazione. Se questo parametro viene omesso
        # quindi il file risultante verrà salvato con il nome del documento di input
        resultantFile = 'SplitOutput'
        # Il flag che indica l'output deve essere nell'archivio ZIP.
        zipOutput = 'false'

        # Carica il documento Word di origine su Cloud Storage
        words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))

        # Crea un oggetto per dividere il documento
        request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
                                                                                    None, resultantFile,pageFrom, pageTo, zipOutput, None)
        # avviare l'operazione di divisione delle parole
        result = words_api.split_document(request)
        
        # stampa messaggio nella console (facoltativo)
        print('Document Split process completed successfully !')    
    except ApiException as e:
        print("Exception while calling WordsApi: {0}".format(e))
Output di divisione del documento

Immagine 4: Anteprima dell’operazione di divisione del documento per le pagine selezionate.

Estrarre pagine da un documento Word utilizzando i comandi cURL

Come altre API REST, anche Aspose.Words Cloud è accessibile tramite comandi cURL all’interno del terminale della riga di comando. Tuttavia, prima di procedere oltre, dobbiamo prima generare un token di accesso JWT basato sulle credenziali del client.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Una volta generato il token, eseguire il seguente comando per estrarre le pagine dal documento Word e salvare l’output nell’archivio Cloud.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/source.doc/split?format=DOCX&destFileName=Split-File&from=2&to=4&zipOutput=false" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>"

Conclusione

In questo articolo, abbiamo esplorato la possibilità di creare uno splitter di documenti che può dividere un documento Word in file di pagina individuali utilizzando Python SDK. Inoltre, in base alle tue esigenze, puoi utilizzare Python SDK o estrarre pagine dal documento Word utilizzando i comandi cURL. Nota che crediamo nella crescita e nella collaborazione collettive. Pertanto, i nostri SDK sono sviluppati secondo la licenza MIT e il loro codice sorgente completo è disponibile per il download su Github. Se necessario, puoi scaricare e modificare il codice in base alle tue esigenze. In caso di problemi o ulteriori domande, non esitare a contattarci tramite il Forum di supporto prodotto gratuito.

Articoli correlati

Ti consigliamo di visitare i seguenti link per saperne di più: