Comment convertir du HTML en texte en C#

Ce tutoriel simple montre comment convertir HTML en texte en C#. En C#, la conversion HTML en texte brut peut être facilement réalisée en utilisant quelques lignes de code pour toute application basée sur .NET exécutée sur les plates-formes Windows, macOS ou Linux.

Étapes pour convertir HTML en texte en C#

  1. Installez Aspose.HTML for .NET à partir du gestionnaire de packages NuGet
  2. Inclure l’espace de noms Aspose.HTML dans votre projet
  3. Charger le contenu du fichier HTML dans une chaîne
  4. Créez une instance de la classe HTMLDocument pour charger la chaîne contenant le code HTML
  5. Instanciez l’instance de classe INodeIterator pour parcourir les nœuds et ajouter dans StringBuilder
  6. Enfin, enregistrez le texte converti à partir de HTML sur le disque

Afin d’obtenir du texte brut à partir de HTML C#, quelques lignes de code peuvent être utilisées efficacement dans n’importe quelle application basée sur .NET. Le processus commence par charger le fichier HTML en tant que chaîne dans l’instance de classe HTMLDocument en utilisant la méthode File.ReadAllText. Ensuite, INodeIterator sera utilisé pour extraire les nœuds du HTML et les ajouter à StringBuilder. Enfin, le code HTML extrait dans StringBuilder sera enregistré sur le disque.

Code pour convertir HTML en texte en C#

Le code ci-dessus en C# convertit le HTML en texte brut en utilisant quelques appels d’API. Nous avons utilisé la classe StyleFilter personnalisée qui hérite de la classe NodeFilter pour remplacer la méthode AcceptNode, qui filtre les nœuds indésirables du HTML pendant le processus de conversion.

Dans la rubrique précédente, nous avons appris à créer un fichier HTML en C#. Alors que l’exemple ci-dessus en C# obtient le texte brut du fichier HTML par programme.

 Français