Este tópico simples é sobre como converter HTML em texto em Java. Em Java HTML para texto simples, o aplicativo de conversão executado em plataformas Windows, Linux ou macOS pode ser desenvolvido usando interfaces API simples e fáceis.
Etapas para converter HTML em texto em Java
- Configure seu projeto para adicionar Aspose.HTML for Java do repositório Maven
- Inclua a referência ao namespace Aspose.HTML em seu aplicativo
- Leia o conteúdo do arquivo HTML de origem usando o objeto String
- Inicialize o objeto HTMLDocument class para carregar a string HTML de origem
- Inicialize o objeto de classe INodeIterator para iterar nós e anexar em StringBuilder
- Salve o texto extraído do HTML no disco
A fim de extrair texto de um aplicativo baseado em HTML Java usando poucas linhas de código pode ser usado. Iniciaremos o processo carregando o HTML de origem em um objeto String e, posteriormente, carregando esse String usando a classe HTMLDocument. Em seguida, usaremos INodeIterator para extrair, percorrer e anexar os nós HMTL a um StringBuilder. Finalmente, o StringBuilder será salvo como arquivo de texto simples no disco.
Código para converter HTML em texto em Java
O exemplo acima em Java converte HTML em texto simples em algumas chamadas de API. Criamos a classe StyleFilter que estende a classe NodeFilter e implementamos o método AcceptNode para definir os filtros de nós do cliente e omitir os nós indesejáveis do HTML durante o processo de conversão.
Neste tópico, exploramos como extrair texto de HTML em Java. Se você estiver interessado na conversão do arquivo MD para o formato XPS, vá para o tópico como converter Markdown para XPS usando Java.