Cómo convertir HTML a texto en C#

Este sencillo tutorial demuestra cómo convertir HTML a texto en C#. En C#, la conversión de HTML a texto sin formato se puede lograr fácilmente usando pocas líneas de código para cualquier aplicación basada en .NET que se ejecute en plataformas Windows, macOS o Linux.

Pasos para convertir HTML a texto en C#

  1. Instale Aspose.HTML for .NET desde el administrador de paquetes NuGet
  2. Incluya Aspose.HTML espacio de nombres en su proyecto
  3. Cargue el contenido del archivo HTML en una cadena
  4. Cree una instancia de la clase HTMLDocument para cargar la cadena que contiene HTML
  5. Crear una instancia de la clase INodeIterator para iterar a través de los nodos y agregarlos en StringBuilder
  6. Finalmente, guarde el texto convertido de HTML en el disco

Para obtener texto sin formato de HTML C#, se pueden usar pocas líneas de código de manera efectiva en cualquier aplicación basada en .NET. El proceso comienza cargando el archivo HTML como String en la instancia de HTMLDocument class usando el método File.ReadAllText. Luego se usará INodeIterator para extraer nodos de HTML y agregarlos a StringBuilder. Finalmente, el HTML extraído en StringBuilder se guardará en el disco.

Código para convertir HTML a texto en C#

El código anterior en C# convierte HTML a texto sin formato usando pocas llamadas a la API. Hemos utilizado una clase StyleFilter personalizada que hereda la clase NodeFilter para anular el método AcceptNode, que filtra los nodos no deseados de HTML durante el proceso de conversión.

En el tema anterior, aprendimos cómo crear archivo HTML en C#. Mientras que el ejemplo anterior en C# obtiene texto sin formato del archivo HTML mediante programación.

 Español