参考这篇简单的文章,您可以用Java从Word文档中提取Text。它包括设置开发环境所需的步骤、逐步的程序工作流程以及将 DOCX 转换为 Java 中的 TXT 的运行示例代码。开发的应用程序可以在 Linux、MS Windows 或 macOS 中任何支持 Java 的环境中使用。
使用 Java 开发 Word 到 TXT 转换器的步骤
- 通过从存储库管理器安装 Aspose.Words for Java 来配置环境,以使用 Java 将 DOCX 文件转换为 TXT 文件
- 通过创建 Document 类的实例来打开源 Word 文档以进行 Word 到 TXT 文件的转换
- 创建一个 TxtSaveOptions 类对象来设置所需的输出 TXT 文件属性
- 使用save方法将加载的DOCX文件作为TXT文件保存在磁盘上
Java 使用简单的 API 接口从 Word 文档中提取文本 中的这些精确步骤。首先,我们将使用 Document 类的实例从磁盘加载源 DOCX 文件,然后使用 TxtSaveOptions 类的实例设置所需的输出 TXT 文件导出选项。最后,使用save方法将打开的Word文档以TXT文件的形式保存在磁盘上。
Java 中将 DOCX 转换为 TXT 的代码
为了从磁盘访问源 DOCX 并从 Word 文档中提取文本,上述代码示例中使用了基于 Java 的 API。人们可以在磁盘上保存 TXT 文件,而无需依赖可选的 TxtSaveOptions 类实例。但是,如果要自定义所需的 TXT 文件,可以使用 TxtSaveOptions 类公开的不同 setter 方法,包括 setEncoding()、setForcePageBreaks()、setMaxCharactersPerLine()、setParagraphBreak() 和 setPrettyFormat() 等。
本文启发我们使用 Java* 开发 *Word 到 TXT 转换器。如果您有兴趣比较 Word 文档,请参阅 使用 Java 比较 Word 文档 上的文章。