Como converter HTML para texto em C#

Este simples tutorial demonstra como converter HTML em texto em C#. Em C# HTML para texto simples, a conversão pode ser facilmente alcançada usando poucas linhas de código para qualquer aplicativo baseado em .NET executado em plataformas Windows, macOS ou Linux.

Etapas para converter HTML em texto em C#

  1. Instale Aspose.HTML for .NET do gerenciador de pacotes NuGet
  2. Inclua o namespace Aspose.HTML em seu projeto
  3. Carregar o conteúdo do arquivo HTML em uma String
  4. Crie uma instância da classe HTMLDocument para carregar a String contendo HTML
  5. Instanciar a instância da classe INodeIterator para iterar pelos nós e anexar no StringBuilder
  6. Finalmente, salve o texto convertido do HTML no disco

Para obter texto simples de HTML C#, poucas linhas de código podem ser usadas efetivamente em qualquer aplicativo baseado em .NET. O processo começa carregando o arquivo HTML como String na instância HTMLDocument class usando o método File.ReadAllText. Então INodeIterator será usado para extrair nós do HTML e anexá-los ao StringBuilder. Por fim, o HTML extraído no StringBuilder será salvo em disco.

Código para converter HTML em texto em C#

O código acima em C# converte HTML em texto simples usando poucas chamadas de API. Usamos a classe StyleFilter personalizada que herda a classe NodeFilter para substituir o método AcceptNode, que filtra os nós indesejáveis do HTML durante o processo de conversão.

No tópico anterior, aprendemos como criar arquivo HTML em C#. Considerando que, o exemplo acima em C# obtém texto simples do arquivo HTML programaticamente.

 Português