Ten prosty poradnik pokazuje, jak konwertować HTML na tekst w języku C#. W C# konwersja HTML do zwykłego tekstu może być łatwo osiągnięta przy użyciu kilku linii kodu dla dowolnej aplikacji opartej na .NET działającej na platformach Windows, macOS lub Linux.
Kroki konwersji HTML na tekst w C#
- Zainstaluj Aspose.HTML for .NET z menedżera pakietów NuGet
- Uwzględnij w swoim projekcie przestrzeń nazw Aspose.HTML
- Załaduj zawartość pliku HTML do String
- Utwórz instancję klasy HTMLDocument, aby załadować ciąg znaków zawierający kod HTML
- Utwórz instancję klasy INodeIterator, aby iterować przez węzły i dołączać w StringBuilder
- Na koniec zapisz przekonwertowany tekst z HTML na dysku
Aby uzyskać zwykły tekst z HTML C#, można efektywnie wykorzystać kilka wierszy kodu w dowolnej aplikacji opartej na platformie .NET. Proces rozpoczyna się od załadowania pliku HTML jako String do instancji HTMLDocument class przy użyciu metody File.ReadAllText. Następnie INodeIterator zostanie użyte do wyodrębnienia węzłów z HTML i dołączenia ich do StringBuilder. Na koniec wyodrębniony kod HTML w StringBuilder zostanie zapisany na dysku.
Kod do konwersji HTML na tekst w C#
Powyższy kod w C# konwertuje HTML na zwykły tekst za pomocą kilku wywołań API. Użyliśmy dostosowanej klasy StyleFilter, która dziedziczy klasę NodeFilter, aby zastąpić metodę AcceptNode, która odfiltrowuje niepożądane węzły z HTML podczas procesu konwersji.
W poprzednim temacie dowiedzieliśmy się, jak utwórz plik HTML w C#. Podczas gdy powyższy przykład w C# pobiera programowo zwykły tekst z pliku HTML.