So konvertieren Sie HTML in Text in Java

In diesem einfachen Thema geht es darum, HTML in Java in Text zu konvertieren. In Java HTML zu Klartext Konvertierungsanwendung, die unter Windows-, Linux- oder macOS-Plattformen läuft, kann mit einfachen und einfachen API-Schnittstellen entwickelt werden.

Schritte zum Konvertieren von HTML in Text in Java

  1. Konfigurieren Sie Ihr Projekt, um Aspose.HTML for Java aus dem Maven-Repository hinzuzufügen
  2. Nehmen Sie den Verweis auf den Namespace Aspose.HTML in Ihre Anwendung auf
  3. Lesen Sie den Inhalt der HTML-Quelldatei mit dem String-Objekt
  4. HTMLDocument class-Objekt initialisieren, um den Quell-HTML-String zu laden
  5. Initialisieren Sie das Klassenobjekt INodeIterator, um Knoten zu iterieren und in StringBuilder anzuhängen
  6. Speichern Sie den aus HTML extrahierten Text auf der Festplatte

Um Text aus HTML zu extrahieren, kann Java-basierte Anwendung mit wenigen Codezeilen verwendet werden. Wir werden den Prozess einleiten, indem wir Quell-HTML in ein String-Objekt laden und anschließend diesen String mit der Klasse HTMLDocument laden. Wir werden dann INodeIterator verwenden, um die HTML-Knoten zu extrahieren, zu durchlaufen und an einen StringBuilder anzuhängen. Schließlich wird der StringBuilder als reine Textdatei auf der Festplatte gespeichert.

Code zum Konvertieren von HTML in Text in Java

Das obige Beispiel in Java konvertiert HTML in einfachen Text in wenigen API-Aufrufen. Wir haben die StyleFilter-Klasse erstellt, die die NodeFilter-Klasse erweitert und die AcceptNode-Methode implementiert, um die Kundenknotenfilter festzulegen und die unerwünschten Knoten aus HTML während des Konvertierungsprozesses auszulassen.

In diesem Thema haben wir untersucht, wie Text aus HTML in Java extrahiert wird. Wenn Sie an der Konvertierung der MD-Datei in das XPS-Format interessiert sind, fahren Sie mit dem Thema Konvertieren Sie Markdown mit Java in XPS fort.

 Deutsch