JavaでHTMLをテキストに変換する方法

この簡単なトピックは、JavaでHTMLをテキストに変換する方法についてです。 Windows、Linux、またはmacOSプラットフォームで実行される* Java HTMLからプレーンテキスト*への変換アプリケーションは、シンプルで簡単なAPIインターフェイスを使用して開発できます。

JavaでHTMLをテキストに変換する手順

  1. MavenリポジトリからAspose.HTML for Javaを追加するようにプロジェクトを構成します
  2. アプリケーションにAspose.HTML名前空間への参照を含めます
  3. Stringオブジェクトを使用してソースHMTLファイルのコンテンツを読み取ります
  4. HTMLDocument classオブジェクトを初期化して、ソースHTML文字列をロードします
  5. INodeIteratorクラスオブジェクトを初期化してノードを反復し、StringBuilderに追加します
  6. HTMLから抽出したテキストをディスクに保存します

数行のコードを使用してHTMLJavaベースのアプリケーションからテキストを抽出するために使用できます。ソースHTMLをStringオブジェクトにロードし、続いてHTMLDocumentクラスを使用してその文字列をロードすることでプロセスを開始します。次に、* INodeIterator *を使用して、HMTLノードを抽出し、トラバースして、StringBuilderに追加します。最後に、StringBuilderはプレーンテキストファイルとしてディスクに保存されます。

JavaでHTMLをテキストに変換するコード

上記のJavaの例では、いくつかのAPI呼び出しでHTMLをプレーンテキストに変換します。 NodeFilterクラスを拡張するStyleFilterクラスを作成し、* AcceptNode *メソッドを実装して、顧客ノードフィルターを設定し、変換プロセス中にHTMLから不要なノードを除外します。

このトピックでは、JavaでHTMLからテキストを抽出する方法について説明しました。 MDファイルをXPS形式に変換することに興味がある場合は、トピックJavaを使用してMarkdownをXPSに変換するに進んでください。

 日本語