この例を利用すると、Python で Word 文書から Text を抽出する方法を学習できます。また、段階的なワークフローに従って開発環境を構成するための情報と、Python** を使用して **Word から TXT へのコンバーターを開発するためのコード例も提供します。このアプリケーションは、Windows、Linux、または macOS の Python および .NET Framework をサポートする任意の環境に統合できます。
Python で Word 文書からテキストを抽出する手順
- .NET 経由の Python 用 Aspose.Words をインストールして環境を確立し、Python を使用して DOCX ファイルを TXT ファイルに変換します
- Document クラスのインスタンスを使用して、ソース Word DOCX ファイルにアクセスします
- TxtSaveOptions クラス オブジェクト インスタンスを使用して、必要なプロパティを設定します
- saveメソッドを使用して、読み込んだWord文書をTXTファイルに変換します。
Python のこれらの正確な手順では、非常にシンプルな API インターフェイスを使用して DOCX ファイルからテキストを抽出します。このプロセスは、Document クラスのインスタンスを使用してディスクからソース DOCX ファイルにアクセスすることで開始され、その後、TxtSaveOptions クラス オブジェクトを使用して目的の出力 TXT ファイルのプロパティを設定します。最後に、ロードされた Word 文書ファイルは、save メソッドを使用してディスクに TXT ファイルとして保存されます。
Python で DOCX を TXT に変換するコード
この例では、Python で DOCX を TXT に変換する API 機能を示します。 TxtSaveOptions クラス インスタンスの使用はオプションであり、デフォルトのオプションを使用して TXT ファイルを保存できます。ただし、出力 TXT ファイルをカスタマイズしたい場合は、エンコーディング、force_page_breaks、max_characters_per_line、paragraph_break、pretty_format の設定など、TxtSaveOptions クラスによって公開されるさまざまなプロパティを使用できます。
この記事では、DOCX からテキストを抽出するには、Python ベースの API が良い選択であることを学びました。 PDF ドキュメントの比較方法について知りたい場合は、Python を使用して PDF ドキュメントを比較する の記事を参照してください。