Hur man konverterar HTML till text i Java

Det här enkla ämnet handlar om hur man konverterar HTML till text i Java. I Java HTML till vanlig text kan konverteringsapplikationer som körs under Windows, Linux eller macOS-plattformar utvecklas med enkla och enkla API-gränssnitt.

Steg för att konvertera HTML till text i Java

  1. Konfigurera ditt projekt för att lägga till Aspose.HTML for Java från Maven-förvaret
  2. Inkludera hänvisningen till namnområdet Aspose.HTML i din applikation
  3. Läs källinnehållet i HMTL-filen med String-objekt
  4. Initiera objektet HTMLDocument class för att läsa in HTML-källsträngen
  5. Initiera INodeIterator-klassobjektet för att iterera noder och lägg till i StringBuilder
  6. Spara den extraherade texten från HTML på disken

För att extrahera text från HTML kan Java-baserad applikation med några rader kod användas. Vi kommer att initiera processen genom att ladda käll-HTML i ett String-objekt och sedan ladda den strängen med HTMLDocument class. Vi kommer sedan att använda INodeIterator för att extrahera, korsa och lägga till HMTL-noderna till en StringBuilder. Slutligen kommer StringBuilder att sparas som vanlig textfil på disken.

Kod för att konvertera HTML till text i Java

import com.aspose.html.HTMLDocument;
import com.aspose.html.License;
import com.aspose.html.dom.Node;
import com.aspose.html.dom.traversal.INodeIterator;
import com.aspose.html.dom.traversal.filters.NodeFilter;
import java.nio.file.Paths;
import java.nio.file.Files;
import java.io.IOException;
import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;
import java.util.stream.Collectors;
public class HtmlToTextCoverter {
public static void main(String[] argsHTMLFile) throws Exception {
// Setting Aspose.Html Java API license to use complete features
License lic = new License();
lic.setLicense("HTML.Total.Java.lic");
// Read the HTML file in String
String content = null;
try {
content = readFileContent("TestFile.html", StandardCharsets.UTF_8);
} catch (IOException exception) {
exception.printStackTrace();
return;
}
// Instantiate HtmlDocument object to load HTML content in String
HTMLDocument document = new HTMLDocument(content, "");
// Initialize INodeIterator instance iterate HTML nodes
INodeIterator iterator = document.createNodeIterator(document, NodeFilter.SHOW_TEXT, new StyleFilter());
StringBuilder Stringbld = new StringBuilder();
// Temp Node object
Node node;
// Iterate through Nodes
while ((node = iterator.nextNode()) != null)
Stringbld.append(node.getNodeValue());
System.out.println(Stringbld.toString());
Files.write(Paths.get("HtmlToText_Java.txt"), Stringbld.toString().getBytes());
}
public static String readFileContent(String filePath, Charset encoding) throws IOException {
String fileContent = Files.lines(Paths.get(filePath), encoding)
.collect(Collectors.joining(System.lineSeparator()));
return fileContent;
}
}
class StyleFilter extends NodeFilter {
@Override
public short acceptNode(Node node) {
// In order to skip an element while fetching nodes, mention the name of element in upper case letters
return (node.getParentElement().getTagName() == "STYLE" || node.getParentElement().getTagName() == "SCRIPT"
? FILTER_REJECT : FILTER_ACCEPT);
}
}

Ovanstående exempel i Java konverterar HTML till vanlig text i några få API-anrop. Vi har skapat StyleFilter class som utökar NodeFilter class och implementerar AcceptNode metoden för att ställa in kundnodfiltren och utelämna oönskade noder från HTML under konverteringsprocessen.

I det här ämnet har vi utforskat hur man extraherar text från HTML i Java. Om du är intresserad av konvertering av MD-fil till XPS-format, fortsätt till ämnet hur man konvertera Markdown till XPS med Java.

 Svenska