Как да конвертирате HTML в текст в Java

Тази проста тема е за това как да конвертирате HTML в текст в Java. В Java HTML към обикновен текст приложението за преобразуване, работещо под Windows, Linux или macOS платформи, може да бъде разработено с помощта на прости и лесни API интерфейси.

Стъпки за конвертиране на HTML в текст в Java

  1. Конфигурирайте проекта си, за да добавите Aspose.HTML for Java от хранилището на Maven
  2. Включете препратката към пространството от имена Aspose.HTML в приложението си
  3. Прочетете съдържанието на изходния HMTL файл с помощта на String обект
  4. Инициализирайте обект HTMLDocument class, за да заредите изходния HTML низ
  5. Инициализирайте обект на клас INodeIterator, за да итерирате възли и да добавите в StringBuilder
  6. Запазете извлечения текст от HTML на диск

За да извлечете текст от HTML Java базирано приложение, можете да използвате няколко реда код. Ще започнем процеса, като заредим изходния HTML в String обект и впоследствие заредим този String с помощта на HTMLDocument class. След това ще използваме INodeIterator за извличане, преминаване и добавяне на HMTL възлите към StringBuilder. Накрая StringBuilder ще бъде записан като обикновен текстов файл на диска.

Код за конвертиране на HTML в текст в Java

Горният пример в Java преобразува HTML в обикновен текст в няколко извиквания на API. Създадохме StyleFilter клас, който разширява NodeFilter класа и имплементираме AcceptNode метода за задаване на филтри за клиентски възли и пропускане на нежеланите възли от HTML по време на процеса на конвертиране.

В тази тема проучихме как да извлечем текст от HTML в Java. Ако се интересувате от преобразуване на MD файл във формат XPS, продължете към темата как да конвертирайте Markdown в XPS с помощта на Java.

 Български