C# で Word 文書からテキストを抽出する

この簡単なチュートリアルを使用すると、C# で Word 文書から Text を抽出できます。これには、開発環境をセットアップする手順、段階的なワークフロー、C# で DOCX を TXT に変換するための現在動作しているサンプル コードが含まれています。開発したアプリケーションは、Linux、MS Windows、または macOS の .NET Framework をサポートする任意のアプリケーションに統合できます。

C# で Word 文書からテキストを抽出する手順

  1. C# を使用して DOCX ファイルを TXT ファイルに変換するには、Aspose.Words for .NET をインストールしてシステムを確立します
  2. Document クラスのインスタンスを使用してソース Word ドキュメントにアクセスします
  3. TxtSaveOptions クラス インスタンスをインスタンス化し、必要なプロパティを設定します
  4. Save メソッドを使用して、Word ファイルを TXT としてディスクに保存します。

C# のこれらの簡潔な手順では、いくつかの API 呼び出しを使用して Word ドキュメント からテキストを抽出します。まず、ソース Word 文書ファイルをディスクからロードし、次に TxtSaveOptions クラス インスタンスを使用して出力 TXT ファイルのエクスポート オプションを設定します。最後に、ロードされた DOCX は、Save メソッドを使用してディスクに TXT ファイルとして保存されます。

C# で DOCX を TXT に変換するコード

using Aspose.Words;
using Aspose.Words.Saving;
namespace Testword
{
public class WordToText
{
public static void ConvertWordToText()
{
string FilePath = @"/Users/Documents/KnowledgeBase/TestData/";
// Applying product license to extract text from Word document
License wordsLiense = new License();
wordsLiense.SetLicense(FilePath + "Conholdate.Total.Product.Family.lic");
// Load the Word file for text conversion
Document sourceWordDocx = new Document(FilePath + "Test1.docx");
// Optional Text options
TxtSaveOptions txtOpts = new TxtSaveOptions();
txtOpts.MaxCharactersPerLine = 100;
txtOpts.SaveFormat = SaveFormat.Text;
txtOpts.PrettyFormat = true;
sourceWordDocx.Save(FilePath + "ExtractedText.txt", txtOpts);
}
}
}

Word ドキュメントからテキストを抽出するには、このコード スニペットでは C# ベースの API が効果的に使用されています。オプションの TxtSaveOptions クラス インスタンスを使用しなくても、Word 文書を TXT に保存できます。ただし、出力 TXT ファイルをさらにカスタマイズする必要がある場合は、Encoding、ForcePageBreaks、MaxCharactersPerLine、ParagraphBreak、PrettyFormat の設定など、TxtSaveOptions クラスによって公開されるさまざまなプロパティを使用できます。

この記事では、C#* を使用して *Word から TXT へのコンバーターを開発するための情報を説明しました。 PDF ドキュメントを比較したい場合は、C# を使用して PDF ドキュメントを比較する の記事を参照してください。

 日本語