使用 Java 从 Word 文档中提取文本

参考这篇简单的文章,您可以用Java从Word文档中提取Text。它包括设置开发环境所需的步骤、逐步的程序工作流程以及DOCX 转换为 Java 中的 TXT 的运行示例代码。开发的应用程序可以在 Linux、MS Windows 或 macOS 中任何支持 Java 的环境中使用。

使用 Java 开发 Word 到 TXT 转换器的步骤

  1. 通过从存储库管理器安装 Aspose.Words for Java 来配置环境,以使用 Java 将 DOCX 文件转换为 TXT 文件
  2. 通过创建 Document 类的实例来打开源 Word 文档以进行 Word 到 TXT 文件的转换
  3. 创建一个 TxtSaveOptions 类对象来设置所需的输出 TXT 文件属性
  4. 使用save方法将加载的DOCX文件作为TXT文件保存在磁盘上

Java 使用简单的 API 接口从 Word 文档中提取文本 中的这些精确步骤。首先,我们将使用 Document 类的实例从磁盘加载源 DOCX 文件,然后使用 TxtSaveOptions 类的实例设置所需的输出 TXT 文件导出选项。最后,使用save方法将打开的Word文档以TXT文件的形式保存在磁盘上。

Java 中将 DOCX 转换为 TXT 的代码

为了从磁盘访问源 DOCX 并从 Word 文档中提取文本,上述代码示例中使用了基于 Java 的 API。人们可以在磁盘上保存 TXT 文件,而无需依赖可选的 TxtSaveOptions 类实例。但是,如果要自定义所需的 TXT 文件,可以使用 TxtSaveOptions 类公开的不同 setter 方法,包括 setEncoding()、setForcePageBreaks()、setMaxCharactersPerLine()、setParagraphBreak() 和 setPrettyFormat() 等。

本文启发我们使用 Java* 开发 *Word 到 TXT 转换器。如果您有兴趣比较 Word 文档,请参阅 使用 Java 比较 Word 文档 上的文章。

 简体中文