Тази проста тема е за това как да конвертирате HTML в текст в Java. В Java HTML към обикновен текст приложението за преобразуване, работещо под Windows, Linux или macOS платформи, може да бъде разработено с помощта на прости и лесни API интерфейси.
Стъпки за конвертиране на HTML в текст в Java
- Конфигурирайте проекта си, за да добавите Aspose.HTML for Java от хранилището на Maven
- Включете препратката към пространството от имена Aspose.HTML в приложението си
- Прочетете съдържанието на изходния HMTL файл с помощта на String обект
- Инициализирайте обект HTMLDocument class, за да заредите изходния HTML низ
- Инициализирайте обект на клас INodeIterator, за да итерирате възли и да добавите в StringBuilder
- Запазете извлечения текст от HTML на диск
За да извлечете текст от HTML Java базирано приложение, можете да използвате няколко реда код. Ще започнем процеса, като заредим изходния HTML в String обект и впоследствие заредим този String с помощта на HTMLDocument class. След това ще използваме INodeIterator за извличане, преминаване и добавяне на HMTL възлите към StringBuilder. Накрая StringBuilder ще бъде записан като обикновен текстов файл на диска.
Код за конвертиране на HTML в текст в Java
Горният пример в Java преобразува HTML в обикновен текст в няколко извиквания на API. Създадохме StyleFilter клас, който разширява NodeFilter класа и имплементираме AcceptNode метода за задаване на филтри за клиентски възли и пропускане на нежеланите възли от HTML по време на процеса на конвертиране.
В тази тема проучихме как да извлечем текст от HTML в Java. Ако се интересувате от преобразуване на MD файл във формат XPS, продължете към темата как да конвертирайте Markdown в XPS с помощта на Java.