Hogyan lehet HTML-t szöveggé konvertálni Java nyelven

Ez az egyszerű téma arról szól, hogyan lehet a HTML szöveggé konvertálni Java nyelven. A Java HTML-ből egyszerű szöveggé konvertáló alkalmazások Windows, Linux vagy macOS platformokon fejleszthetők egyszerű és egyszerű API-felületekkel.

Lépések a HTML szöveggé konvertálásához Java nyelven

  1. Konfigurálja a projektet úgy, hogy hozzáadja a(z) Aspose.HTML for Java elemet a Maven adattárból
  2. Szerelje be a Aspose.HTML névtérre való hivatkozást az alkalmazásban
  3. Olvassa be a forrás HMTL fájl tartalmát a String objektum használatával
  4. A forrás HTML-karakterlánc betöltéséhez inicializálja a HTMLDocument class objektumot
  5. Inicializálja az INodeIterator osztályobjektumot a csomópontok iterálásához és hozzáfűzéséhez a StringBuilderben
  6. Mentse a HTML-ből kivont szöveget a lemezre

Annak érdekében, hogy szöveg kinyerése HTML-ből Java alapú alkalmazás használható néhány sor kóddal. A folyamatot úgy indítjuk el, hogy betöltjük a forrás-HTML-t egy String objektumba, majd ezt követően betöltjük a karakterláncot a HTMLDocument class használatával. Ezután az INodeIterator segítségével kibontjuk, bejárjuk és hozzáfűzzük a HMTL csomópontokat egy StringBuilderhez. Végül a StringBuilder egyszerű szöveges fájlként kerül mentésre a lemezre.

Kód a HTML szöveggé konvertálásához Java nyelven

import com.aspose.html.HTMLDocument;
import com.aspose.html.License;
import com.aspose.html.dom.Node;
import com.aspose.html.dom.traversal.INodeIterator;
import com.aspose.html.dom.traversal.filters.NodeFilter;
import java.nio.file.Paths;
import java.nio.file.Files;
import java.io.IOException;
import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;
import java.util.stream.Collectors;
public class HtmlToTextCoverter {
public static void main(String[] argsHTMLFile) throws Exception {
// Setting Aspose.Html Java API license to use complete features
License lic = new License();
lic.setLicense("HTML.Total.Java.lic");
// Read the HTML file in String
String content = null;
try {
content = readFileContent("TestFile.html", StandardCharsets.UTF_8);
} catch (IOException exception) {
exception.printStackTrace();
return;
}
// Instantiate HtmlDocument object to load HTML content in String
HTMLDocument document = new HTMLDocument(content, "");
// Initialize INodeIterator instance iterate HTML nodes
INodeIterator iterator = document.createNodeIterator(document, NodeFilter.SHOW_TEXT, new StyleFilter());
StringBuilder Stringbld = new StringBuilder();
// Temp Node object
Node node;
// Iterate through Nodes
while ((node = iterator.nextNode()) != null)
Stringbld.append(node.getNodeValue());
System.out.println(Stringbld.toString());
Files.write(Paths.get("HtmlToText_Java.txt"), Stringbld.toString().getBytes());
}
public static String readFileContent(String filePath, Charset encoding) throws IOException {
String fileContent = Files.lines(Paths.get(filePath), encoding)
.collect(Collectors.joining(System.lineSeparator()));
return fileContent;
}
}
class StyleFilter extends NodeFilter {
@Override
public short acceptNode(Node node) {
// In order to skip an element while fetching nodes, mention the name of element in upper case letters
return (node.getParentElement().getTagName() == "STYLE" || node.getParentElement().getTagName() == "SCRIPT"
? FILTER_REJECT : FILTER_ACCEPT);
}
}

A fenti példa a Java-ban néhány API-hívásban konvertálja a HTML-t egyszerű szöveggé. Létrehoztuk a StyleFilter osztályt, amely kiterjeszti a NodeFilter osztályt, és megvalósítja az AcceptNode metódust az ügyfél csomópontszűrőinek beállításához és a nem kívánt csomópontok kihagyásához a HTML-ből a konverziós folyamat során.

Ebben a témában megvizsgáltuk, hogyan lehet szöveget kivonni a HTML-ből Java nyelven. Ha érdekli az MD fájl XPS formátumba konvertálása, folytassa a konvertálja a Markdown-t XPS-re Java segítségével témával.

 Magyar