Dit eenvoudige onderwerp gaat over het converteren van HTML naar tekst in Java. In Java HTML naar platte tekst kan een conversietoepassing die draait onder Windows-, Linux- of macOS-platforms worden ontwikkeld met behulp van eenvoudige en gemakkelijke API-interfaces.
Stappen om HTML naar tekst in Java te converteren
- Configureer uw project om Aspose.HTML for Java toe te voegen vanuit de Maven-repository
- Neem de verwijzing naar Aspose.HTML naamruimte op in uw toepassing
- Lees de inhoud van het bron-HMTL-bestand met behulp van String-object
- Initialiseer HTMLDocument class object om de bron HTML String te laden
- Initialiseer het klasseobject INodeIterator om knooppunten te herhalen en toe te voegen in StringBuilder
- Bewaar de geëxtraheerde tekst uit HTML op schijf
Om tekst te extraheren uit HTML kan een Java gebaseerde applicatie worden gebruikt met enkele regels code. We zullen het proces starten door bron-HTML in een String-object te laden en vervolgens die String te laden met HTMLDocument-klasse. We zullen dan INodeIterator gebruiken om de HMTL-knooppunten te extraheren, te doorkruisen en toe te voegen aan een StringBuilder. Ten slotte wordt de StringBuilder als tekstbestand op schijf opgeslagen.
Code om HTML naar tekst in Java te converteren
Het bovenstaande voorbeeld in Java converteert HTML naar platte tekst in enkele API-aanroepen. We hebben StyleFilter-klasse gecreëerd die de NodeFilter-klasse uitbreidt en implementeren de AcceptNode-methode om de klantknooppuntfilters in te stellen en de ongewenste knooppunten uit HTML weg te laten tijdens het conversieproces.
In dit onderwerp hebben we onderzocht hoe tekst uit HTML in Java kan worden geëxtraheerd. Als u geïnteresseerd bent in de conversie van een MD-bestand naar XPS-indeling, gaat u verder met het onderwerp converteer Markdown naar XPS met Java.