Python を使用して PDF メタデータを読み取る方法

このクイック チュートリアルでは、Python を使用して PDF メタデータを読み取る方法について説明します。アプリケーションを開発するための環境を設定するための詳細な情報、段階的な手順、およびPython を使用して PDF からメタデータを抽出するための実行可能なサンプル コードが含まれています。アプリケーションを作成し、PDF からメタデータ情報にアクセスすることがいかに簡単かを学びます。Python がサポートされている環境にサードパーティ ツールをインストールすることなく、ごくわずかな API 呼び出しを使用します。

Python を使用して PDF メタデータを読み取る手順

  1. .NET 経由で Aspose.PDF for Python を使用 への環境を確立してメタデータを読み取る
  2. Document クラス オブジェクトを使用してソース PDF ファイルを読み込み、メタデータを取得します
  3. PDF メタデータを含む DocumentInfo クラス オブジェクトへのアクセスを取得します
  4. いくつかの情報プロパティにアクセスしてコンソールに表示する

これらの手順では、Python を使用して PDF メタデータを表示する プロセスについて説明します。まず、対象の PDF ファイルをロードしてから、Document クラスの「Info」という名前の DocumentInfo プロパティにアクセスする必要があります。このオブジェクトには、PDF 内のすべてのメタデータ (作成者、変更のタイム ゾーン、プロデューサー、作成日、変更日など) が含まれています。

Python を使用して PDF メタデータを取得するコード

このコードは、Python を使用して PDF メタデータを取得する手順を示しています。 DocumentInfo クラス オブジェクトは、読み込まれたドキュメントからアクセスされます。このドキュメントには、トラップ フラグ、タイトル、件名、ドキュメントのキーワード、作成者などの多くのメタデータ情報が含まれています。これらのプロパティを追加する場合は、DocumentInfo.add() メソッドを使用し、clear() メソッドを使用してメタデータをクリアし、remove() メソッドを使用して指定されたメタデータのみを削除します。

この記事では、PDF からメタデータを取得するプロセスについて説明しました。 PDF コンテンツを読むプロセスを知りたい場合は、Python で PDF コンテンツを読む方法 の記事を参照してください。

 日本語