C# で Word 文書からテキストを抽出する

この簡単なチュートリアルを使用すると、C# で Word 文書から Text を抽出できます。これには、開発環境をセットアップする手順、段階的なワークフロー、C# で DOCX を TXT に変換するための現在動作しているサンプル コードが含まれています。開発したアプリケーションは、Linux、MS Windows、または macOS の .NET Framework をサポートする任意のアプリケーションに統合できます。

C# で Word 文書からテキストを抽出する手順

  1. C# を使用して DOCX ファイルを TXT ファイルに変換するには、Aspose.Words for .NET をインストールしてシステムを確立します
  2. Document クラスのインスタンスを使用してソース Word ドキュメントにアクセスします
  3. TxtSaveOptions クラス インスタンスをインスタンス化し、必要なプロパティを設定します
  4. Save メソッドを使用して、Word ファイルを TXT としてディスクに保存します。

C# のこれらの簡潔な手順では、いくつかの API 呼び出しを使用して Word ドキュメント からテキストを抽出します。まず、ソース Word 文書ファイルをディスクからロードし、次に TxtSaveOptions クラス インスタンスを使用して出力 TXT ファイルのエクスポート オプションを設定します。最後に、ロードされた DOCX は、Save メソッドを使用してディスクに TXT ファイルとして保存されます。

C# で DOCX を TXT に変換するコード

Word ドキュメントからテキストを抽出するには、このコード スニペットでは C# ベースの API が効果的に使用されています。オプションの TxtSaveOptions クラス インスタンスを使用しなくても、Word 文書を TXT に保存できます。ただし、出力 TXT ファイルをさらにカスタマイズする必要がある場合は、Encoding、ForcePageBreaks、MaxCharactersPerLine、ParagraphBreak、PrettyFormat の設定など、TxtSaveOptions クラスによって公開されるさまざまなプロパティを使用できます。

この記事では、C#* を使用して *Word から TXT へのコンバーターを開発するための情報を説明しました。 PDF ドキュメントを比較したい場合は、C# を使用して PDF ドキュメントを比較する の記事を参照してください。

 日本語