Как преобразовать HTML в текст в C#

Это простое руководство демонстрирует, как преобразовать HTML в текст на C#. Преобразование C# HTML в обычный текст может быть легко достигнуто с помощью нескольких строк кода для любого приложения на основе .NET, работающего на платформах Windows, macOS или Linux.

Шаги по преобразованию HTML в текст на C#

  1. Установите Aspose.HTML for .NET из диспетчера пакетов NuGet.
  2. Включите пространство имен Aspose.HTML в свой проект
  3. Загрузите содержимое файла HTML в строку
  4. Создайте экземпляр класса HTMLDocument для загрузки строки, содержащей HTML
  5. Создайте экземпляр класса INodeIterator для перебора узлов и добавления в StringBuilder.
  6. Наконец, сохраните преобразованный текст из HTML на диск

Чтобы получить обычный текст из HTML C#, можно эффективно использовать несколько строк кода в любом приложении на основе .NET. Процесс начинается с загрузки HTML-файла в виде строки в экземпляр класса HTMLDocument с использованием метода File.ReadAllText. Затем INodeIterator будет использоваться для извлечения узлов из HTML и добавления их в StringBuilder. Наконец, извлеченный HTML-код в StringBuilder будет сохранен на диске.

Код для преобразования HTML в текст на C#

Приведенный выше код на C# преобразует HTML в обычный текст с помощью нескольких вызовов API. Мы использовали настраиваемый класс StyleFilter, который наследует класс NodeFilter, чтобы переопределить метод AcceptNode, который отфильтровывает нежелательные узлы из HTML в процессе преобразования.

В предыдущем разделе мы узнали, как создать HTML-файл на С#. Принимая во внимание, что приведенный выше пример на * C# программно получает простой текст из файла HTML *.

 Русский