本快速教程解释了如何使用 Python 读取 PDF 元数据。它包含用于设置应用程序开发环境的详细信息、逐步过程和用于使用 Python 从 PDF 中提取元数据的可运行示例代码。您将了解到,在任何支持 Python 的环境中,无需安装任何第三方工具,只需调用很少的 API,即可轻松编写应用程序并从 PDF 访问元数据信息。
使用 Python 读取 PDF 元数据的步骤
- 为通过 .NET 使用适用于 Python 的 Aspose.PDF建立环境以读取元数据
- 使用 Document 类对象加载源 PDF 文件以获取元数据
- 访问包含 PDF 元数据的 DocumentInfo 类对象
- 访问一些信息属性并在控制台上显示它们
这些步骤描述了使用 Python* 查看 PDF 元数据的过程。首先,您需要加载目标 PDF 文件,然后访问 Document 类中名为Info”的 DocumentInfo 属性。该对象具有 PDF 中的所有元数据,如创建者、修改时区、制作者、创建日期和修改日期。
使用 Python 获取 PDF 元数据的代码
此代码仅演示了使用 Python* 获取 *PDF 元数据的过程。从加载的文档访问 DocumentInfo 类对象,该文档具有许多元数据信息,如捕获标志、标题、主题、文档关键字和作者。如果要添加这些属性,可以使用 DocumentInfo.add() 方法,使用 clear() 方法清除元数据,使用 remove() 方法仅删除指定的元数据。
本文描述了从 PDF 中检索元数据的过程。如果您想了解阅读 PDF 内容的过程,请参阅 如何在 Python 中读取 PDF 内容 上的文章。