Python で Word 文書からテキストを抽出する

この例を利用すると、Python で Word 文書から Text を抽出する方法を学習できます。また、段階的なワークフローに従って開発環境を構成するための情報と、Python** を使用して **Word から TXT へのコンバーターを開発するためのコード例も提供します。このアプリケーションは、Windows、Linux、または macOS の Python および .NET Framework をサポートする任意の環境に統合できます。

Python で Word 文書からテキストを抽出する手順

  1. .NET 経由の Python 用 Aspose.Words をインストールして環境を確立し、Python を使用して DOCX ファイルを TXT ファイルに変換します
  2. Document クラスのインスタンスを使用して、ソース Word DOCX ファイルにアクセスします
  3. TxtSaveOptions クラス オブジェクト インスタンスを使用して、必要なプロパティを設定します
  4. saveメソッドを使用して、読み込んだWord文書をTXTファイルに変換します。

Python のこれらの正確な手順では、非常にシンプルな API インターフェイスを使用して DOCX ファイルからテキストを抽出します。このプロセスは、Document クラスのインスタンスを使用してディスクからソース DOCX ファイルにアクセスすることで開始され、その後、TxtSaveOptions クラス オブジェクトを使用して目的の出力 TXT ファイルのプロパティを設定します。最後に、ロードされた Word 文書ファイルは、save メソッドを使用してディスクに TXT ファイルとして保存されます。

Python で DOCX を TXT に変換するコード

この例では、Python で DOCX を TXT に変換する API 機能を示します。 TxtSaveOptions クラス インスタンスの使用はオプションであり、デフォルトのオプションを使用して TXT ファイルを保存できます。ただし、出力 TXT ファイルをカスタマイズしたい場合は、エンコーディング、force_page_breaks、max_characters_per_line、paragraph_break、pretty_format の設定など、TxtSaveOptions クラスによって公開されるさまざまなプロパティを使用できます。

この記事では、DOCX からテキストを抽出するには、Python ベースの API が良い選択であることを学びました。 PDF ドキュメントの比較方法について知りたい場合は、Python を使用して PDF ドキュメントを比較する の記事を参照してください。

 日本語