Toto jednoduché téma je o tom, jak převést HTML na text v Javě. V Java HTML na prostý text lze vyvíjet aplikace pro převod na platformách Windows, Linux nebo macOS pomocí jednoduchých a snadných rozhraní API.
Kroky k převodu HTML na text v Javě
- Nakonfigurujte svůj projekt tak, aby přidal Aspose.HTML for Java z úložiště Maven
- Zahrňte do své aplikace odkaz na jmenný prostor Aspose.HTML
- Čtěte obsah zdrojového souboru HMTL pomocí objektu String
- Inicializací objektu HTMLDocument class načtete zdrojový řetězec HTML
- Inicializujte objekt třídy INodeIterator pro iteraci uzlů a připojení v StringBuilderu
- Uložte extrahovaný text z HTML na disk
Pro extrahování textu z HTML lze použít Java aplikaci pomocí několika řádků kódu. Proces zahájíme načtením zdrojového HTML do objektu String a následným načtením tohoto řetězce pomocí třídy HTMLDocument. Potom použijeme INodeIterator k extrahování, procházení a připojení uzlů HMTL do StringBuilderu. Nakonec bude StringBuilder uložen jako prostý textový soubor na disk.
Kód pro převod HTML na text v Javě
Výše uvedený příklad v Java převádí HTML na prostý text v několika voláních API. Vytvořili jsme třídu StyleFilter, která rozšiřuje třídu NodeFilter a implementujeme metodu AcceptNode pro nastavení filtrů zákaznických uzlů a vynechání nežádoucích uzlů z HTML během procesu převodu.
V tomto tématu jsme prozkoumali jak extrahovat text z HTML v Javě. Máte-li zájem o převod souboru MD do formátu XPS, přejděte k tématu převést Markdown na XPS pomocí Javy.