Como ler documentos do Word em Java

Este breve tutorial apresenta informações sobre como ler documento do Word em Java fornecendo um procedimento passo a passo detalhado e um código Java executável lendo o documento de amostra de diferentes maneiras. Apresenta as classes necessárias que são usadas para ler um arquivo Word e acessar seus diferentes segmentos. Enquanto lendo o documento do Word em código Java como DOCX, DOC ou outros arquivos compatíveis com o MS Word, você percorrerá diferentes nós filho do documento e processará cada um conforme sua necessidade.

Etapas para ler o arquivo do Word em Java

  1. Instale o Aspose.Words for Java usando o repositório Maven para ler o arquivo DOCX
  2. Carregue o arquivo DOCX de origem no objeto de classe Document para leitura em Java
  3. Iterar por todos os nós de tipo Paragraph no documento
  4. Converta cada texto de parágrafo em uma string e exiba-o no console
  5. Iterar por todos os nós do tipo Run no documento
  6. Converta cada nó para o tipo Run e acesse o nome da fonte, tamanho e texto do Run
  7. Exibir cada texto de execução no console

Essas etapas descrevem como ler o arquivo do Word em Java compartilhando o link para a página de configuração e, em seguida, orientando para carregar o documento do Word de origem. Uma vez que o arquivo do Word é carregado, seu modelo de objeto de documento (DOM), ou seja, a estrutura lógica também é carregada e pode ser analisada de diferentes maneiras. Essas etapas auxiliam na preparação de duas coleções principais que são Parágrafos e Execuções para acessar diferentes partes do documento Word carregado.

Código para ler o arquivo DOCX em Java

Este código Java para ler documento do Word demonstra a análise do DOM usando filtros diferentes, por exemplo, em primeiro lugar, buscamos todos os nós de parágrafo. A classe Paragraph fornece a função toString() que extrai o texto de todo o parágrafo incluindo Tabelas etc. e o salva em uma variável de string. Da mesma forma, quando analisamos o documento para buscar todas as execuções, ele separa o conteúdo com base em seu estilo, fonte, tipo de nó etc. e divide um único parágrafo em vários segmentos com base no estilo da fonte do texto, como o texto em negrito será fornecido separadamente, itálico texto separadamente e assim por diante.

Este tutorial nos orientou a ler um arquivo DOCX, no entanto, se você quiser algum tipo de conversão como Word para PDF, consulte o artigo em como converter Word para PDF em Java.

 Português