Este tutorial rápido orienta você sobre como ler o arquivo DOCX em Python. Ele contém todas as informações necessárias para configurar o ambiente, etapas a serem seguidas ao escrever o código e um código Python de amostra executável. Você também pode ler o arquivo DOC em Python, bem como todos os outros arquivos suportados pelo MS Word usando as mesmas instruções.
Etapas para ler o arquivo DOCX em Python
- Defina o ambiente de desenvolvimento para usar Aspose.Words para Python via .NET para ler um arquivo DOCX
- Importe o namespace aspose.words e defina um alias para ele
- Carregue o arquivo DOCX de entrada no objeto de classe Document que deve ser lido usando Python
- Execute um loop para buscar todos os nós de parágrafo do DOCX carregado
- Converta cada nó em um parágrafo
- Extraia o conteúdo de cada parágrafo e converta-o em string para exibição
Essas etapas respondem à pergunta de como o Python pode ler o documento do Word compartilhando a configuração e outros detalhes necessários. Ele orienta a importação de namespaces necessários, métodos para carregar o arquivo DOCX, iteração por todos os nós de um tipo específico, como Parágrafo, neste código de exemplo e, em seguida, a conversão de cada conteúdo de parágrafo em uma string para exibição no console.
Código para ler arquivo do Word em Python
Este código em Python lê o arquivo Word carregando-o e, em seguida, iterando por todo o seu conteúdo. Você também pode ler o texto selecionado entre os parágrafos e obter acesso a diferentes tipos de nós, como seção, corpo, tabela, forma, comentário e rodapé do cabeçalho para listar alguns. Você também pode obter informações em nível de documento, como propriedades internas, iterando por meio da coleção Document.built_in_document_properties e usando as propriedades “name” e “value” de cada item para obter as informações necessárias.
Este artigo demonstrou a leitura de um arquivo do Word em Python. Se você estiver interessado em criar um arquivo do Word, consulte o artigo em como criar documento do Word usando Python.