Jak převést HTML na text v Javě

Toto jednoduché téma je o tom, jak převést HTML na text v Javě. V Java HTML na prostý text lze vyvíjet aplikace pro převod na platformách Windows, Linux nebo macOS pomocí jednoduchých a snadných rozhraní API.

Kroky k převodu HTML na text v Javě

  1. Nakonfigurujte svůj projekt tak, aby přidal Aspose.HTML for Java z úložiště Maven
  2. Zahrňte do své aplikace odkaz na jmenný prostor Aspose.HTML
  3. Čtěte obsah zdrojového souboru HMTL pomocí objektu String
  4. Inicializací objektu HTMLDocument class načtete zdrojový řetězec HTML
  5. Inicializujte objekt třídy INodeIterator pro iteraci uzlů a připojení v StringBuilderu
  6. Uložte extrahovaný text z HTML na disk

Pro extrahování textu z HTML lze použít Java aplikaci pomocí několika řádků kódu. Proces zahájíme načtením zdrojového HTML do objektu String a následným načtením tohoto řetězce pomocí třídy HTMLDocument. Potom použijeme INodeIterator k extrahování, procházení a připojení uzlů HMTL do StringBuilderu. Nakonec bude StringBuilder uložen jako prostý textový soubor na disk.

Kód pro převod HTML na text v Javě

Výše uvedený příklad v Java převádí HTML na prostý text v několika voláních API. Vytvořili jsme třídu StyleFilter, která rozšiřuje třídu NodeFilter a implementujeme metodu AcceptNode pro nastavení filtrů zákaznických uzlů a vynechání nežádoucích uzlů z HTML během procesu převodu.

V tomto tématu jsme prozkoumali jak extrahovat text z HTML v Javě. Máte-li zájem o převod souboru MD do formátu XPS, přejděte k tématu převést Markdown na XPS pomocí Javy.

 Čeština