通过使用此示例,您将学习如何从 Python 中的 Word 文档中提取 Text。它还提供了通过遵循分步工作流程来配置开发环境的信息,以及使用 Python 开发 **Word 到 TXT 转换器的示例代码。该应用程序可以集成到 Windows、Linux 或 macOS 中支持 Python 和 .NET 框架的任何环境中。
使用 Python 从 Word 文档中提取文本的步骤
- 通过安装Aspose.Words for Python 通过 .NET建立环境,使用Python将DOCX文件转换为TXT文件
- 通过使用 Document 类的实例,访问源 Word DOCX 文件
- 使用 TxtSaveOptions 类对象实例来设置所需的属性
- 使用save方法将加载的Word文档转换为TXT文件
Python 中的这些精确步骤使用非常简单的 API 接口从 DOCX 文件中提取文本。该过程首先使用 Document 类的实例从磁盘访问源 DOCX 文件,然后使用 TxtSaveOptions 类对象设置所需的输出 TXT 文件属性。最后,使用save方法将加载的Word文档文件以TXT文件的形式保存在磁盘上。
在 Python 中将 DOCX 转换为 TXT 的代码
该示例演示了在 Python 中将 DOCX 转换为 TXT 的 API 功能。使用 TxtSaveOptions 类实例是可选的,您可以使用默认选项保存 TXT 文件。但是,如果您希望自定义输出 TXT 文件,则可以使用 TxtSaveOptions 类公开的不同属性,包括设置编码、force_page_breaks、max_characters_per_line、paragraph_break 和 Pretty_format 等。
在本文中,我们了解到,为了从 DOCX 中提取文本,基于 Python 的 API 可能是一个不错的选择。如果您想学习比较 PDF 文档,请参阅 使用 Python 比较 PDF 文档 上的文章。