この簡単な記事を参照すると、Java で Word 文書から Text を抽出できます。これには、開発環境をセットアップするために必要な手順、段階的なプログラム ワークフロー、Java で DOCX を TXT に変換するための実行サンプル コードが含まれています。開発されたアプリケーションは、Linux、MS Windows、または macOS の Java がサポートされる環境で使用できます。
Java を使用して Word to TXT コンバータを開発する手順
- Java を使用して DOCX ファイルを TXT ファイルに変換するには、リポジトリ マネージャーから Aspose.Words for Java をインストールして環境を構成します。
- Word から TXT ファイルへの変換用の Document クラスのインスタンスを作成して、ソース Word ドキュメントを開きます
- TxtSaveOptions クラス オブジェクトを作成して、必要な出力 TXT ファイルのプロパティを設定します
- save メソッドを使用して、読み込んだ DOCX ファイルを TXT ファイルとしてディスクに保存します。
Java のこれらの正確な手順では、単純な API インターフェイスを使用して Word ドキュメント からテキストを抽出します。まず、Document クラスのインスタンスを使用してソース DOCX ファイルをディスクからロードします。次に、TxtSaveOptions クラスのインスタンスを使用して、必要な出力 TXT ファイルのエクスポート オプションを設定します。最後に、save メソッドを使用して、開いた Word 文書を TXT ファイルとしてディスクに保存します。
Java で DOCX を TXT に変換するコード
import com.aspose.words.Document; | |
import com.aspose.words.License; | |
import com.aspose.words.SaveFormat; | |
import com.aspose.words.TxtSaveOptions; | |
public class HowToConvertWordToText { | |
public static void main(String[] args) throws Exception { //main function for How To Convert Word to Text in Java | |
String path= "/Users/Documents/KnowledgeBase/TestData/"; | |
// Applying product license extract text from DOCX | |
License WordToTextLic = new License(); | |
WordToTextLic.setLicense(path + "Conholdate.Total.Product.Family.lic"); | |
// Load the source DOCX for text conversion | |
Document sourceWordDoc = new Document(path+"Test1.docx"); | |
// Optional Text saving options | |
TxtSaveOptions txtOpts = new TxtSaveOptions(); | |
txtOpts.setMaxCharactersPerLine(100); | |
txtOpts.setSaveFormat(SaveFormat.TEXT); | |
txtOpts.setPrettyFormat(true); | |
// Convert Word to Text | |
sourceWordDoc.save(path + "ExtractedText.txt", txtOpts); | |
System.out.println("Done"); | |
} | |
} |
ディスクからソース DOCX にアクセスし、Word ドキュメントからテキストを抽出するために、前述のコード例では Java ベースの API が使用されています。オプションの TxtSaveOptions クラス インスタンスに依存せずに、TXT ファイルをディスクに保存できます。ただし、目的の TXT ファイルをカスタマイズする場合は、TxtSaveOptions クラスによって公開されているさまざまなセッター メソッド (たとえば、setEncoding()、setForcePageBreaks()、setMaxCharactersPerLine()、setParagraphBreak()、setPrettyFormat() など) を使用できます。
この記事では、Java* を使用した *Word から TXT へのコンバーターの開発について説明しました。 Word ドキュメントの比較に興味がある場合は、Java を使用して Word 文書を比較する の記事を参照してください。