Uma abordagem rápida e fácil para extrair páginas de documentos do Word usando o Python SDK.

documento de palavras divididas

dividir documento do Word | Extrair páginas do documento do Word como um arquivo separado

No âmbito do gerenciamento de documentos, muitas vezes surge a necessidade de dividir, separar ou extrair seções específicas de um documento do Word. Quer você esteja lidando com extensos artigos de pesquisa, relatórios abrangentes ou manuscritos longos, a tarefa de dividi-los em partes mais gerenciáveis pode ser demorada e desafiadora. Neste artigo, exploraremos as etapas para atingir esse requisito com o Python Cloud SDK, permitindo que você agilize suas tarefas de gerenciamento de documentos e trabalhe com mais eficiência.

API de processamento de texto

Aspose.Words Cloud é nossa solução dedicada para processamento do MS Word (DOCX, DOC, DOT, RTF, DOCM) ou OpenDocument (ODT, OTT).Nenhum software de terceiros ou automação do MS Office é necessário para processar documentos do Word. Basta chamar as APIs REST para atender às suas necessidades. Como as APIs são baseadas em REST, você pode acessá-las em qualquer plataforma, incluindo Desktop, Web, Mobile App, etc. Agora, de acordo com o escopo deste artigo, discutiremos os detalhes de como dividir páginas em um arquivo do Word como um documento do Word individual. A API também fornece a flexibilidade para personalizar a operação de divisão, ou seja, dividir cada página, ímpar e par, pelo número de páginas, por intervalo de páginas.

Para facilitar ainda mais nossos clientes, criamos o Aspose.Words Cloud SDK para Python, que é um wrapper em torno da Cloud API, para que você possa aproveitar todos os benefícios do processamento de documentos do Word em sua linguagem de programação favorita. Então, antes de prosseguir, o primeiro passo é a instalação do SDK no sistema local. Ele está disponível para download em PIP e GitHub. Execute o seguinte comando no terminal da linha de comando para instalar o SDK:

pip install aspose-words-cloud

Caso esteja usando o Visual Studio como IDE, você pode adicionar diretamente a referência do SDK no projeto.

Clique na opção View ->Other Windows ->Python Environments. Conforme mostrado abaixo.

Opção de menu Ambiente Python.

Imagem 1:- Opção de menu Ambiente Python.

Insira aspose-word-cloud no campo Pacotes na janela Ambientes Python. Em seguida, clique no link Instalar aspose-word-cloud (21.11.0).O número da versão pode mudar dependendo da versão de lançamento mais recente/atual. Veja a imagem abaixo.

pacote python aspose-words-cloud

Imagem 2: pacote python aspose-words-cloud.

Dividir páginas em um documento do Word usando Python

Siga as instruções abaixo para dividir todas as páginas de um documento do Word já disponível no armazenamento em nuvem.

  • Primeiro, precisamos inicializar um objeto do WordsApi enquanto passamos o ID do cliente e o segredo do cliente como argumentos.
  • Em segundo lugar, especifique o nome do arquivo de entrada do Word, o formato de saída resultante, o nome do arquivo resultante e o parâmetro para arquivar a saída em formato zip.
  • Carregue o documento de entrada do Word para o armazenamento em nuvem usando o objeto UploadFileRequest.
  • Agora crie uma instância de SplitDocumentRequest enquanto passa os detalhes definidos na segunda etapa.
  • Por fim, chame o método splitdocument(…) da classe WordsApi para dividir documentos do Word. Os arquivos resultantes são salvos no armazenamento em nuvem mapeado.
try:
        # crie uma instância de WordsApi
        words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")

        # Nome do documento de entrada do Word
        inputFileName = 'source.doc'
        # formato de arquivo resultante
        resultantFormat = 'DOCX'
        # Nome do documento resultante após a operação. Se este parâmetro for omitido
        # então o arquivo resultante será salvo com o nome do documento de entrada
        resultantFile = 'Split-File'
        # O sinalizador que indica se a saída deve ser compactada.
        zipOutput = 'false'

        # Carregar documento Word de origem para o Cloud Storage
        words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))

        # Crie um objeto para dividir o documento
        request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
                                                                                    None, resultantFile,None, None, zipOutput, None)
        # iniciar operação de divisão de palavras
        result = words_api.split_document(request)
        
        # imprimir mensagem no console (opcional)
        print('Document Split process completed successfully !')    
    except ApiException as e:
        print("Exception while calling WordsApi: {0}".format(e))
Prévia da operação de divisão de documentos

Imagem 3:- Visualização da operação de divisão de documentos.

Dividir documento com base nas páginas selecionadas

Nesta seção, discutiremos os detalhes sobre como dividir um documento com base em páginas selecionadas e salvar a saída como um arquivo ZIP. O trecho de código é quase o mesmo que o compartilhado acima, exceto que precisamos especificar o valor Page From, Page To e True para que a saída seja arquivada.

try:
        # crie uma instância de WordsApi
        words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")

        # Nome do documento de entrada do Word
        inputFileName = 'source.doc'
        # formato de arquivo resultante
        resultantFormat = 'DOCX'
        # Nome do documento resultante após a operação. Se este parâmetro for omitido
        # então o arquivo resultante será salvo com o nome do documento de entrada
        resultantFile = 'SplitOutput'
        # O sinalizador que indica a saída deve estar em arquivo ZIP.
        zipOutput = 'false'

        # Carregar documento Word de origem para o Cloud Storage
        words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))

        # Crie um objeto para dividir o documento
        request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
                                                                                    None, resultantFile,pageFrom, pageTo, zipOutput, None)
        # iniciar operação de divisão de palavras
        result = words_api.split_document(request)
        
        # imprimir mensagem no console (opcional)
        print('Document Split process completed successfully !')    
    except ApiException as e:
        print("Exception while calling WordsApi: {0}".format(e))
Saída de divisão de documento

Imagem 4:- Visualização da operação de divisão de documentos para páginas selecionadas.

Extrair páginas de um documento do Word usando comandos cURL

Assim como outras APIs REST, o Aspose.Words Cloud também pode ser acessado por meio de comandos cURL dentro do terminal de linha de comando. No entanto, antes de prosseguir, precisamos primeiro gerar um token de acesso JWT com base nas credenciais do Cliente.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Depois que o token for gerado, execute o seguinte comando para extrair páginas do documento do Word e salvar a saída no armazenamento em nuvem.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/source.doc/split?format=DOCX&destFileName=Split-File&from=2&to=4&zipOutput=false" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>"

Conclusão

Neste artigo, exploramos a possibilidade de criar um divisor de documentos que pode dividir o documento do Word em arquivos de páginas individuais usando o Python SDK. Além disso, conforme suas necessidades, você pode usar o Python SDK ou extrair páginas do documento do Word usando comandos cURL. Observe que acreditamos no crescimento coletivo e na colaboração. Portanto, nossos SDKs são desenvolvidos conforme a licença do MIT e seu código-fonte completo está disponível para download no Github. Se precisar, você pode baixar e modificar o código conforme suas necessidades. Caso encontre algum problema ou tenha mais alguma dúvida, sinta-se à vontade para entrar em contato conosco pelo Fórum de suporte gratuito ao produto.

Artigos relacionados

Recomendamos que você visite os seguintes links para saber mais sobre: