Este breve tutorial apresenta informações sobre como ler documento do Word em Java fornecendo um procedimento passo a passo detalhado e um código Java executável lendo o documento de amostra de diferentes maneiras. Apresenta as classes necessárias que são usadas para ler um arquivo Word e acessar seus diferentes segmentos. Enquanto lendo o documento do Word em código Java como DOCX, DOC ou outros arquivos compatíveis com o MS Word, você percorrerá diferentes nós filho do documento e processará cada um conforme sua necessidade.
Etapas para ler o arquivo do Word em Java
- Instale o Aspose.Words for Java usando o repositório Maven para ler o arquivo DOCX
- Carregue o arquivo DOCX de origem no objeto de classe Document para leitura em Java
- Iterar por todos os nós de tipo Paragraph no documento
- Converta cada texto de parágrafo em uma string e exiba-o no console
- Iterar por todos os nós do tipo Run no documento
- Converta cada nó para o tipo Run e acesse o nome da fonte, tamanho e texto do Run
- Exibir cada texto de execução no console
Essas etapas descrevem como ler o arquivo do Word em Java compartilhando o link para a página de configuração e, em seguida, orientando para carregar o documento do Word de origem. Uma vez que o arquivo do Word é carregado, seu modelo de objeto de documento (DOM), ou seja, a estrutura lógica também é carregada e pode ser analisada de diferentes maneiras. Essas etapas auxiliam na preparação de duas coleções principais que são Parágrafos e Execuções para acessar diferentes partes do documento Word carregado.
Código para ler o arquivo DOCX em Java
package word_articles; | |
import com.aspose.words.Document; | |
import com.aspose.words.Font; | |
import com.aspose.words.License; | |
import com.aspose.words.NodeType; | |
import com.aspose.words.Paragraph; | |
import com.aspose.words.Run; | |
import com.aspose.words.SaveFormat; | |
public class ReadWordDocumentInJava { | |
public static void main(String[] args) throws Exception {// Main function to read Word file in Java | |
// Create a license object to avoid limitations of the trial version | |
// while reading the Word file | |
License licWordToPdf = new License(); | |
licWordToPdf.setLicense("Aspose.Words.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true)) | |
{ | |
Paragraph para = (Paragraph)obj; | |
System.out.println(para.toString(SaveFormat.TEXT)); | |
} | |
// Read all the Runs in the document and display style and text | |
for (Object obj : doc.getChildNodes(NodeType.RUN, true)) | |
{ | |
Run run = (Run)obj; | |
Font font = run.getFont(); | |
System.out.println(font.getName() + "," + font.getSize()); | |
System.out.println(run.getText()); | |
} | |
System.out.println("Done"); | |
} | |
} |
Este código Java para ler documento do Word demonstra a análise do DOM usando filtros diferentes, por exemplo, em primeiro lugar, buscamos todos os nós de parágrafo. A classe Paragraph fornece a função toString() que extrai o texto de todo o parágrafo incluindo Tabelas etc. e o salva em uma variável de string. Da mesma forma, quando analisamos o documento para buscar todas as execuções, ele separa o conteúdo com base em seu estilo, fonte, tipo de nó etc. e divide um único parágrafo em vários segmentos com base no estilo da fonte do texto, como o texto em negrito será fornecido separadamente, itálico texto separadamente e assim por diante.
Este tutorial nos orientou a ler um arquivo DOCX, no entanto, se você quiser algum tipo de conversão como Word para PDF, consulte o artigo em como converter Word para PDF em Java.