C#でHTMLをテキストに変換する方法

この簡単なハウツーは、** HTMLをC#でテキストに変換する**方法を示しています。 * C#HTMLからプレーンテキスト*への変換は、Windows、macOS、またはLinuxプラットフォームで実行されている.NETベースのアプリケーションに数行のコードを使用することで簡単に実現できます。

C#でHTMLをテキストに変換する手順

  1. NuGetパッケージマネージャーからAspose.HTML for .NETをインストールします
  2. プロジェクトにAspose.HTML名前空間を含めます
  3. HTMLファイルのコンテンツを文字列にロードする
  4. HTMLDocumentクラスのインスタンスを作成して、HTMLを含む文字列を読み込みます
  5. INodeIteratorクラスインスタンスをインスタンス化して、ノードを反復処理し、StringBuilderに追加します
  6. 最後に、変換されたテキストをHTMLからディスクに保存します
  • HTML C#からプレーンテキストを取得するために、.NETベースのアプリケーションで数行のコードを効果的に使用できます。このプロセスは、 File.ReadAllText メソッドを使用して、HTMLファイルをStringとしてHTMLDocumentクラスインスタンスにロードすることから始まります。次に、 INodeIterator *を使用してHTMLからノードを抽出し、StringBuilderに追加します。最後に、StringBuilderで抽出されたHTMLがディスクに保存されます。

C#でHTMLをテキストに変換するコード

上記のC#のコードは、いくつかのAPI呼び出しを使用してHTMLをプレーンテキストに変換します。 NodeFilterクラスを継承するカスタマイズされたStyleFilterクラスを使用して、変換プロセス中にHTMLから望ましくないノードをフィルターで除外するAcceptNodeメソッドをオーバーライドしました。

前のトピックでは、C#でHTMLファイルを作成するの方法を学びました。一方、上記の* C#の例では、プログラムでHTML*ファイルからプレーンテキストを取得します。

 日本語