Java で Word 文書からテキストを抽出する

この簡単な記事を参照すると、Java で Word 文書から Text を抽出できます。これには、開発環境をセットアップするために必要な手順、段階的なプログラム ワークフロー、Java で DOCX を TXT に変換するための実行サンプル コードが含まれています。開発されたアプリケーションは、Linux、MS Windows、または macOS の Java がサポートされる環境で使用できます。

Java を使用して Word to TXT コンバータを開発する手順

  1. Java を使用して DOCX ファイルを TXT ファイルに変換するには、リポジトリ マネージャーから Aspose.Words for Java をインストールして環境を構成します。
  2. Word から TXT ファイルへの変換用の Document クラスのインスタンスを作成して、ソース Word ドキュメントを開きます
  3. TxtSaveOptions クラス オブジェクトを作成して、必要な出力 TXT ファイルのプロパティを設定します
  4. save メソッドを使用して、読み込んだ DOCX ファイルを TXT ファイルとしてディスクに保存します。

Java のこれらの正確な手順では、単純な API インターフェイスを使用して Word ドキュメント からテキストを抽出します。まず、Document クラスのインスタンスを使用してソース DOCX ファイルをディスクからロードします。次に、TxtSaveOptions クラスのインスタンスを使用して、必要な出力 TXT ファイルのエクスポート オプションを設定します。最後に、save メソッドを使用して、開いた Word 文書を TXT ファイルとしてディスクに保存します。

Java で DOCX を TXT に変換するコード

ディスクからソース DOCX にアクセスし、Word ドキュメントからテキストを抽出するために、前述のコード例では Java ベースの API が使用されています。オプションの TxtSaveOptions クラス インスタンスに依存せずに、TXT ファイルをディスクに保存できます。ただし、目的の TXT ファイルをカスタマイズする場合は、TxtSaveOptions クラスによって公開されているさまざまなセッター メソッド (たとえば、setEncoding()、setForcePageBreaks()、setMaxCharactersPerLine()、setParagraphBreak()、setPrettyFormat() など) を使用できます。

この記事では、Java* を使用した *Word から TXT へのコンバーターの開発について説明しました。 Word ドキュメントの比較に興味がある場合は、Java を使用して Word 文書を比較する の記事を参照してください。

 日本語