本快速教程将指导您如何在 Python 中读取 DOCX 文件。它包含配置环境所需的全部信息、编写代码时要遵循的步骤以及可运行的示例 Python 代码。您还可以使用相同的指令读取 Python 中的 DOC 文件,以及所有其他 MS Word 支持的文件。
在 Python 中读取 DOCX 文件的步骤
- 将开发环境设置为使用 Aspose.Words for Python 通过 .NET 读取 DOCX 文件
- 导入 aspose.words 命名空间并为其设置别名
- 将输入 DOCX 文件加载到要使用 Python 读取的 Document 类对象中
- 执行循环以从加载的 DOCX 中获取所有段落节点
- 将每个节点转换为段落
- 从每个段落中提取内容并将它们转换为字符串以进行显示
这些步骤通过共享配置和其他必要的细节回答了Python如何读取Word文档的问题。它指导导入必要的命名空间、加载 DOCX 文件的方法、遍历此示例代码中的段落等特定类型的所有节点,然后将每个段落内容转换为字符串以显示在控制台上。
在 Python 中读取 Word 文件的代码
Python 中的代码通过加载 Word 文件并遍历其所有内容来读取它。您还可以在段落之间阅读选定的文本,并访问不同类型的节点,如部分、正文、表格、形状、注释和页眉页脚等。您还可以通过遍历 Document.built_in_document_properties 集合并使用每个项目的"名称"和"值"属性来获取所需的信息来获取文档级别的信息,例如内置属性。
本文演示了在 Python 中读取 Word 文件。如果您对创建 Word 文件感兴趣,请参阅 如何使用 Python 创建 Word 文档 上的文章。