Как читать метаданные PDF с помощью Python

В этом кратком руководстве объясняется, как читать метаданные PDF с помощью Python. Он содержит подробную информацию по настройке среды для разработки приложения, пошаговую процедуру и исполняемый пример кода для извлечения метаданных из PDF с помощью Python. Вы узнаете, как легко написать приложение и получить доступ к метаданным из PDF, используя очень мало вызовов API без установки каких-либо сторонних инструментов в любой из поддерживаемых Python сред.

Шаги для чтения метаданных PDF с использованием Python

  1. Установите среду для использовать Aspose.PDF для Python через .NET для чтения метаданных
  2. Загрузите исходный PDF-файл, используя объект класса Document, чтобы получить метаданные.
  3. Получите доступ к объекту класса DocumentInfo, содержащему метаданные PDF.
  4. Получите доступ к нескольким информационным свойствам и отобразите их на консоли.

Эти шаги описывают процесс просмотра метаданных PDF с помощью Python. Сначала вам нужно загрузить целевой PDF-файл, а затем получить доступ к свойству DocumentInfo с именем «Информация» в классе Document. Этот объект имеет все метаданные в PDF, такие как создатель, часовой пояс модификации, производитель, дата создания и дата модификации.

Код для получения метаданных PDF с использованием Python

Этот код просто демонстрирует процедуру извлечения метаданных PDF с помощью Python. Доступ к объекту класса DocumentInfo осуществляется из загруженного документа, который содержит ряд метаданных, таких как захваченный флаг, заголовок, тема, ключевые слова документа и автор. Если вы хотите добавить эти свойства, вы можете использовать метод DocumentInfo.add(), метод clear() для очистки метаданных и метод remove() для удаления только указанных метаданных.

В этой статье описан процесс извлечения метаданных из PDF. Если вы хотите узнать, как читать содержимое PDF, обратитесь к статье как читать содержимое PDF в Python.

 Русский