この簡単なチュートリアルを使用すると、C# で Word 文書から Text を抽出できます。これには、開発環境をセットアップする手順、段階的なワークフロー、C# で DOCX を TXT に変換するための現在動作しているサンプル コードが含まれています。開発したアプリケーションは、Linux、MS Windows、または macOS の .NET Framework をサポートする任意のアプリケーションに統合できます。
C# で Word 文書からテキストを抽出する手順
- C# を使用して DOCX ファイルを TXT ファイルに変換するには、Aspose.Words for .NET をインストールしてシステムを確立します
- Document クラスのインスタンスを使用してソース Word ドキュメントにアクセスします
- TxtSaveOptions クラス インスタンスをインスタンス化し、必要なプロパティを設定します
- Save メソッドを使用して、Word ファイルを TXT としてディスクに保存します。
C# のこれらの簡潔な手順では、いくつかの API 呼び出しを使用して Word ドキュメント からテキストを抽出します。まず、ソース Word 文書ファイルをディスクからロードし、次に TxtSaveOptions クラス インスタンスを使用して出力 TXT ファイルのエクスポート オプションを設定します。最後に、ロードされた DOCX は、Save メソッドを使用してディスクに TXT ファイルとして保存されます。
C# で DOCX を TXT に変換するコード
using Aspose.Words; | |
using Aspose.Words.Saving; | |
namespace Testword | |
{ | |
public class WordToText | |
{ | |
public static void ConvertWordToText() | |
{ | |
string FilePath = @"/Users/Documents/KnowledgeBase/TestData/"; | |
// Applying product license to extract text from Word document | |
License wordsLiense = new License(); | |
wordsLiense.SetLicense(FilePath + "Conholdate.Total.Product.Family.lic"); | |
// Load the Word file for text conversion | |
Document sourceWordDocx = new Document(FilePath + "Test1.docx"); | |
// Optional Text options | |
TxtSaveOptions txtOpts = new TxtSaveOptions(); | |
txtOpts.MaxCharactersPerLine = 100; | |
txtOpts.SaveFormat = SaveFormat.Text; | |
txtOpts.PrettyFormat = true; | |
sourceWordDocx.Save(FilePath + "ExtractedText.txt", txtOpts); | |
} | |
} | |
} |
Word ドキュメントからテキストを抽出するには、このコード スニペットでは C# ベースの API が効果的に使用されています。オプションの TxtSaveOptions クラス インスタンスを使用しなくても、Word 文書を TXT に保存できます。ただし、出力 TXT ファイルをさらにカスタマイズする必要がある場合は、Encoding、ForcePageBreaks、MaxCharactersPerLine、ParagraphBreak、PrettyFormat の設定など、TxtSaveOptions クラスによって公開されるさまざまなプロパティを使用できます。
この記事では、C#* を使用して *Word から TXT へのコンバーターを開発するための情報を説明しました。 PDF ドキュメントを比較したい場合は、C# を使用して PDF ドキュメントを比較する の記事を参照してください。