この短いチュートリアルでは、環境構成の詳細、手順のリスト、および実行可能なコードを使用して、** C#でWordドキュメントを読み取る方法を学習します。このコードは、さまざまな方法でWordファイルを読み取る方法を示しています。 DOCX、DOC、RTF、HTMLなどのWordファイルを読み込んでから、さまざまな要素にアクセスして処理または表示することにより、 C#がWordドキュメント**を読み取る方法を学習します。
C#でWord文書からデータを読み取る手順
- NuGetパッケージマネージャーからAspose.Wordsを使用するようにプロジェクト環境を構成します
- 入力DOCXファイルをDocumentクラスオブジェクトにロードします
- ドキュメントからタイプParagraphのすべてのノードを取得します
- 各段落を文字列に変換し、コンソールに表示します
- ドキュメントからすべての実行タイプノードを取得します
- 各実行アイテムを文字列に変換し、フォント名とサイズとともに表示します
これらの手順は、Wordファイルリーダープログラムの作成中に実行される環境とタスクを構成するために必要な詳細情報を提供します。これは、ソースファイルをDocumentクラスインスタンスにロードし、そのすべての段落にアクセスしてテキストを表示することにより、* C#がDOCX*ファイルを読み取る方法を示しています。また、段落や表などからデータを読み取って、異なるスタイルのテキストの各セグメントを分離したり、各表のセル値に個別にアクセスして処理したりする方法についても説明します。
C#でWordファイルを読み取るためのコード
このコードは、段落、実行、セクション、本文、HeaderFooter、コメントなどのノードのタイプをフェッチする必要があるDocument.GetChildNodes()関数を使用して* C#でWordファイルを読み取る方法*を示しています。子ノードにアクセスしたら、そのメソッドとプロパティを使用するには、それぞれのタイプにキャストする必要があります。たとえば、ドキュメントを2回読んだので、最初は通常の段落や表などに関係なくドキュメント全体のすべてのテキストが表示され、2回目はスタイルやコンテンツタイプの変更に基づいて読み取られます。
この記事では、Wordファイルの読み方を説明しましたが、Word文書からHTMLへの変換について知りたい場合は、C#を使用してWord文書をHTMLに変換する方法の記事を参照してください。