Як перетворити HTML на текст у Java

Ця проста тема про те, як перетворити HTML на текст у Java. У Java HTML у звичайний текст програму для перетворення, що працює на платформах Windows, Linux або macOS, можна розробити за допомогою простих і легких інтерфейсів API.

Кроки для перетворення HTML на текст у Java

  1. Налаштуйте свій проект, щоб додати Aspose.HTML for Java зі сховища Maven
  2. Додайте посилання на простір імен Aspose.HTML у свою заявку
  3. Прочитайте вміст вихідного файлу HMTL за допомогою об’єкта String
  4. Ініціалізуйте об’єкт HTMLDocument class, щоб завантажити вихідний рядок HTML
  5. Ініціалізуйте об’єкт класу INodeIterator для повторення вузлів і додавання в StringBuilder
  6. Збережіть витягнутий текст із HTML на диску

Щоб витягнути текст із HTML-додатку на основі Java, можна використати кілька рядків коду. Ми розпочнемо процес із завантаження вихідного HTML в об’єкт String і подальшого завантаження цього рядка за допомогою класу HTMLDocument. Потім ми використаємо INodeIterator для вилучення, проходження та додавання вузлів HMTL до StringBuilder. Нарешті, StringBuilder буде збережено як звичайний текстовий файл на диску.

Код для перетворення HTML у текст у Java

Наведений вище приклад у Java перетворює HTML на звичайний текст за кілька викликів API. Ми створили клас StyleFilter, який розширює клас NodeFilter і реалізував метод AcceptNode для встановлення фільтрів вузлів клієнта та виключення небажаних вузлів із HTML під час процесу перетворення.

У цій темі ми досліджували як отримати текст із HTML у Java. Якщо вас цікавить перетворення файлу MD у формат XPS, перейдіть до теми, як конвертувати Markdown у XPS за допомогою Java.

 Українська