Comment convertir HTML en texte en Java

Ce sujet simple explique comment convertir HTML en texte en Java. Dans * Java HTML vers texte brut *, une application de conversion fonctionnant sous Windows, Linux ou macOS peut être développée à l’aide d’interfaces API simples et faciles.

Étapes pour convertir HTML en texte en Java

  1. Configurez votre projet pour ajouter Aspose.HTML for Java à partir du référentiel Maven
  2. Incluez la référence à l’espace de noms Aspose.HTML dans votre application
  3. Lire le contenu du fichier HTML source à l’aide de l’objet String
  4. Initialiser l’objet HTMLDocument class pour charger la chaîne HTML source
  5. Initialiser l’objet de classe INodeIterator pour itérer les nœuds et ajouter dans StringBuilder
  6. Enregistrer le texte extrait du HTML sur le disque

Afin d’extraire du texte de HTML, une application basée sur Java utilisant quelques lignes de code peut être utilisée. Nous lancerons le processus en chargeant le code HTML source dans un objet String, puis en chargeant cette chaîne à l’aide de la classe HTMLDocument. Nous utiliserons ensuite INodeIterator pour extraire, parcourir et ajouter les nœuds HMTL à un StringBuilder. Enfin, le StringBuilder sera enregistré sous forme de fichier texte brut sur le disque.

Code pour convertir HTML en texte en Java

L’exemple ci-dessus dans * Java convertit HTML en texte brut * en quelques appels d’API. Nous avons créé la classe StyleFilter qui étend la classe NodeFilter et implémente la méthode AcceptNode pour définir les filtres de nœud client et omettre les nœuds indésirables du HTML pendant le processus de conversion.

Dans cette rubrique, nous avons exploré comment extraire du texte de HTML en Java. Si vous êtes intéressé par la conversion du fichier MD au format XPS, passez à la rubrique comment convertir Markdown en XPS en utilisant Java.

 Français