JavaでWord文書を読む方法

この簡単なチュートリアルでは、詳細な手順と、サンプルドキュメントをさまざまな方法で読み取る実行可能なJavaコードを提供することにより、JavaでWordドキュメントを読み取る方法に関する情報を示します。 Wordファイルを読み取り、そのさまざまなセグメントにアクセスするために使用される必要なクラスを紹介します。 DOCXDOC、またはその他のMS WordでサポートされているファイルなどのJavaコードでWord文書を読み取る間、文書のさまざまな子ノードを反復処理し、要件に従ってそれぞれを処理します。

JavaでWordファイルを読み取る手順

  1. Mavenリポジトリを使用してAspose.Words for Javaをインストールし、DOCXファイルを読み取ります
  2. ソースDOCXファイルをDocumentクラスオブジェクトにロードして、Javaで読み取ります
  3. ドキュメント内のすべてのParagraphタイプのノードを反復処理します
  4. 各段落テキストを文字列に変換し、コンソールに表示します
  5. ドキュメント内のすべての実行タイプノードを反復処理します
  6. 各ノードを実行タイプに変換し、実行のフォント名、サイズ、およびテキストにアクセスします
  7. 各実行テキストをコンソールに表示します

これらの手順では、構成ページへのリンクを共有し、ソースのWord文書をロードするためのガイドを使用して、JavaでWordファイルを読み取る方法について説明します。 Wordファイルが読み込まれると、そのドキュメントオブジェクトモデル(DOM)、つまり論理構造も読み込まれ、さまざまな方法で解析できます。これらの手順は、ロードされたWordドキュメントのさまざまな部分にアクセスするための段落と実行の2つの主要なコレクションの準備に役立ちます。

JavaでDOCXファイルを読み取るためのコード

このWordドキュメントを読み取るJavaコードは、さまざまなフィルターを使用してDOMを解析する方法を示しています。たとえば、最初にすべての段落ノードをフェッチします。 Paragraphクラスは、テーブルなどを含む段落全体からテキストを抽出し、それを文字列変数に保存するtoString()関数を提供します。同様に、ドキュメントを解析してすべての実行をフェッチすると、スタイル、フォント、ノードタイプなどに基づいてコンテンツが分割され、太字のテキストが個別に提供されるように、テキストのフォントスタイルに基づいて1つの段落が複数のセグメントに分割されます。個別にテキストなど。

このチュートリアルでは、DOCXファイルを読むようにガイドしましたが、WordからPDFなどの変換が必要な場合は、JavaでWordをPDFに変換する方法の記事を参照してください。

 日本語