Cómo convertir HTML a texto en Java

Este sencillo tema trata sobre cómo convertir HTML a texto en Java. En Java HTML a texto sin formato, la aplicación de conversión que se ejecuta en plataformas Windows, Linux o macOS se puede desarrollar utilizando interfaces API simples y fáciles.

Pasos para convertir HTML a texto en Java

  1. Configure su proyecto para agregar Aspose.HTML for Java desde el repositorio de Maven
  2. Incluya la referencia al espacio de nombres Aspose.HTML en su aplicación
  3. Lea el contenido del archivo HMTL de origen utilizando el objeto String
  4. Inicialice el objeto HTMLDocument class para cargar la cadena HTML de origen
  5. Inicialice el objeto de clase INodeIterator para iterar nodos y agregar en StringBuilder
  6. Guarde el texto extraído de HTML en el disco

Para extraer texto de HTML, se puede utilizar una aplicación basada en Java utilizando unas pocas líneas de código. Iniciaremos el proceso cargando código fuente HTML en un objeto String y luego cargando ese String usando HTMLDocument class. Luego usaremos INodeIterator para extraer, atravesar y agregar los nodos HMTL a un StringBuilder. Finalmente, StringBuilder se guardará como archivo de texto sin formato en el disco.

Código para convertir HTML a texto en Java

El ejemplo anterior en Java convierte HTML a texto sin formato en pocas llamadas a la API. Hemos creado la clase StyleFilter que amplía la clase NodeFilter e implementamos el método AcceptNode para configurar los filtros de nodos del cliente y omitir los nodos no deseados de HTML durante el proceso de conversión.

En este tema, hemos explorado cómo extraer texto de HTML en Java. Si está interesado en la conversión de archivos MD a formato XPS, continúe con el tema sobre cómo convertir Markdown a XPS usando Java.

 Español