Kako pretvoriti HTML u tekst u C#

Ovaj jednostavan način demonstrira kako pretvoriti HTML u tekst u C#. U C# HTML-u u običan tekst pretvorba se može lako postići upotrebom nekoliko redaka koda za bilo koju aplikaciju temeljenu na .NET-u koja radi na platformama Windows, macOS ili Linux.

Koraci za pretvaranje HTML-a u tekst u C#

  1. Instalirajte Aspose.HTML for .NET iz upravitelja paketa NuGet
  2. Uključite prostor imena Aspose.HTML u svoj projekt
  3. Učitajte sadržaj HTML datoteke u niz
  4. Napravite instancu klase HTMLDocument za učitavanje niza koji sadrži HTML
  5. Instancirajte instancu klase INodeIterator za ponavljanje kroz čvorove i dodavanje u StringBuilder
  6. Na kraju, spremite konvertirani tekst iz HTML-a na disk

Kako biste dobili običan tekst iz HTML C#, nekoliko redaka koda može se učinkovito koristiti u bilo kojoj aplikaciji temeljenoj na .NET-u. Proces počinje učitavanjem HTML datoteke kao String u instancu HTMLDocument class pomoću metode File.ReadAllText. Zatim će se INodeIterator koristiti za izdvajanje čvorova iz HTML-a i njihovo dodavanje u StringBuilder. Konačno, ekstrahirani HTML u StringBuilderu bit će spremljen na disk.

Kod za pretvaranje HTML-a u tekst u C#

Gornji kod u C# pretvara HTML u običan tekst pomoću nekoliko API poziva. Koristili smo prilagođenu StyleFilter klasu koja nasljeđuje NodeFilter klasu za nadjačavanje AcceptNode metode, koja filtrira nepoželjne čvorove iz HTML-a tijekom procesa konverzije.

U prethodnoj temi naučili smo kako izradi HTML datoteku u C#. Dok gornji primjer u C# programski dobiva čisti tekst iz HTML datoteke.

 Hrvatski