Pode-se Extrair Text do documento Word em Java consultando este artigo simples. Ele inclui as etapas necessárias para configurar o ambiente de desenvolvimento, o fluxo de trabalho do programa passo a passo e um código de exemplo em execução para converter DOCX em TXT em Java. A aplicação desenvolvida pode ser utilizada em qualquer ambiente compatível com Java em Linux, MS Windows ou macOS.
Etapas para desenvolver o conversor Word para TXT usando Java
- Configure o ambiente instalando Aspose.Words for Java do gerenciador de repositório para converter um arquivo DOCX em um arquivo TXT usando Java
- Abra o documento Word de origem criando uma instância da classe Document para conversão de arquivo Word em TXT
- Crie um objeto de classe TxtSaveOptions para definir as propriedades do arquivo TXT de saída necessárias
- Salve o arquivo DOCX carregado como arquivo TXT no disco usando o método save
Essas etapas precisas em Java extraem texto de documento do Word usando uma interface API simples. Primeiro, carregaremos o arquivo DOCX de origem do disco usando uma instância da classe Document, que será seguida pela configuração das opções de exportação do arquivo TXT de saída desejada usando uma instância da classe TxtSaveOptions. Por último, o documento Word aberto é salvo como um arquivo TXT no disco usando o método save.
Código para converter DOCX em TXT em Java
Para acessar o DOCX de origem do disco e extrair texto do documento do Word, a API baseada em Java foi usada no exemplo de código mencionado acima. Pode-se salvar um arquivo TXT no disco sem depender da instância opcional da classe TxtSaveOptions. No entanto, se quiser personalizar o arquivo TXT desejado, você pode usar diferentes métodos setter expostos pela classe TxtSaveOptions, incluindo setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() e setPrettyFormat(), para citar alguns.
Este artigo nos ensinou a desenvolver um conversor Word para TXT usando Java. Se você estiver interessado em comparar documentos do Word, consulte o artigo em Compare documentos do Word usando Java.