Jak převést HTML na text v C#

Tento jednoduchý návod ukazuje, jak převést HTML na text v C#. V C# HTML na prostý text lze snadno dosáhnout konverze pomocí několika řádků kódu pro jakoukoli aplikaci založenou na .NET běžící na platformách Windows, macOS nebo Linux.

Kroky k převodu HTML na text v C#

  1. Nainstalujte Aspose.HTML for .NET ze správce balíčků NuGet
  2. Zahrňte do svého projektu jmenný prostor Aspose.HTML
  3. Načtěte obsah souboru HTML do řetězce
  4. Vytvořte instanci třídy HTMLDocument pro načtení řetězce obsahujícího HTML
  5. Vytvořte instanci třídy INodeIterator pro iteraci uzlů a připojení v StringBuilderu
  6. Nakonec uložte převedený text z HTML na disk

Aby bylo možné získat prostý text z HTML C#, lze v jakékoli aplikaci založené na .NET efektivně použít několik řádků kódu. Proces začíná načtením souboru HTML jako String do instance třídy HTMLDocument pomocí metody File.ReadAllText. Potom se INodeIterator použije k extrahování uzlů z HTML a jejich připojení k StringBuilderu. Nakonec bude extrahovaný HTML v StringBuilder uložen na disk.

Kód pro převod HTML na text v C#

Výše uvedený kód v C# převádí HTML na prostý text pomocí několika volání API. Použili jsme přizpůsobenou třídu StyleFilter, která zdědí třídu NodeFilter, abychom přepsali metodu AcceptNode, která během procesu převodu filtruje nežádoucí uzly z HTML.

V předchozím tématu jsme se naučili, jak vytvořit HTML soubor v C#. Zatímco výše uvedený příklad v C# programově získá prostý text ze souboru HTML.

 Čeština