如何在 Python 中读取 DOCX 文件

本快速教程将指导您如何在 Python 中读取 DOCX 文件。它包含配置环境所需的全部信息、编写代码时要遵循的步骤以及可运行的示例 Python 代码。您还可以使用相同的指令读取 Python 中的 DOC 文件,以及所有其他 MS Word 支持的文件。

在 Python 中读取 DOCX 文件的步骤

  1. 将开发环境设置为使用 Aspose.Words for Python 通过 .NET 读取 DOCX 文件
  2. 导入 aspose.words 命名空间并为其设置别名
  3. 将输入 DOCX 文件加载到要使用 Python 读取的 Document 类对象中
  4. 执行循环以从加载的 DOCX 中获取所有段落节点
  5. 将每个节点转换为段落
  6. 从每个段落中提取内容并将它们转换为字符串以进行显示

这些步骤通过共享配置和其他必要的细节回答了Python如何读取Word文档的问题。它指导导入必要的命名空间、加载 DOCX 文件的方法、遍历此示例代码中的段落等特定类型的所有节点,然后将每个段落内容转换为字符串以显示在控制台上。

在 Python 中读取 Word 文件的代码

Python 中的代码通过加载 Word 文件并遍历其所有内容来读取它。您还可以在段落之间阅读选定的文本,并访问不同类型的节点,如部分、正文、表格、形状、注释和页眉页脚等。您还可以通过遍历 Document.built_in_document_properties 集合并使用每个项目的"名称"和"值"属性来获取所需的信息来获取文档级别的信息,例如内置属性。

本文演示了在 Python 中读取 Word 文件。如果您对创建 Word 文件感兴趣,请参阅 如何使用 Python 创建 Word 文档 上的文章。

 简体中文