この簡単な記事を参照すると、Java で Word 文書から Text を抽出できます。これには、開発環境をセットアップするために必要な手順、段階的なプログラム ワークフロー、Java で DOCX を TXT に変換するための実行サンプル コードが含まれています。開発されたアプリケーションは、Linux、MS Windows、または macOS の Java がサポートされる環境で使用できます。
Java を使用して Word to TXT コンバータを開発する手順
- Java を使用して DOCX ファイルを TXT ファイルに変換するには、リポジトリ マネージャーから Aspose.Words for Java をインストールして環境を構成します。
- Word から TXT ファイルへの変換用の Document クラスのインスタンスを作成して、ソース Word ドキュメントを開きます
- TxtSaveOptions クラス オブジェクトを作成して、必要な出力 TXT ファイルのプロパティを設定します
- save メソッドを使用して、読み込んだ DOCX ファイルを TXT ファイルとしてディスクに保存します。
Java のこれらの正確な手順では、単純な API インターフェイスを使用して Word ドキュメント からテキストを抽出します。まず、Document クラスのインスタンスを使用してソース DOCX ファイルをディスクからロードします。次に、TxtSaveOptions クラスのインスタンスを使用して、必要な出力 TXT ファイルのエクスポート オプションを設定します。最後に、save メソッドを使用して、開いた Word 文書を TXT ファイルとしてディスクに保存します。
Java で DOCX を TXT に変換するコード
ディスクからソース DOCX にアクセスし、Word ドキュメントからテキストを抽出するために、前述のコード例では Java ベースの API が使用されています。オプションの TxtSaveOptions クラス インスタンスに依存せずに、TXT ファイルをディスクに保存できます。ただし、目的の TXT ファイルをカスタマイズする場合は、TxtSaveOptions クラスによって公開されているさまざまなセッター メソッド (たとえば、setEncoding()、setForcePageBreaks()、setMaxCharactersPerLine()、setParagraphBreak()、setPrettyFormat() など) を使用できます。
この記事では、Java* を使用した *Word から TXT へのコンバーターの開発について説明しました。 Word ドキュメントの比較に興味がある場合は、Java を使用して Word 文書を比較する の記事を参照してください。