このクイック チュートリアルでは、Python を使用して PDF メタデータを読み取る方法について説明します。アプリケーションを開発するための環境を設定するための詳細な情報、段階的な手順、およびPython を使用して PDF からメタデータを抽出するための実行可能なサンプル コードが含まれています。アプリケーションを作成し、PDF からメタデータ情報にアクセスすることがいかに簡単かを学びます。Python がサポートされている環境にサードパーティ ツールをインストールすることなく、ごくわずかな API 呼び出しを使用します。
Python を使用して PDF メタデータを読み取る手順
- .NET 経由で Aspose.PDF for Python を使用 への環境を確立してメタデータを読み取る
- Document クラス オブジェクトを使用してソース PDF ファイルを読み込み、メタデータを取得します
- PDF メタデータを含む DocumentInfo クラス オブジェクトへのアクセスを取得します
- いくつかの情報プロパティにアクセスしてコンソールに表示する
これらの手順では、Python を使用して PDF メタデータを表示する プロセスについて説明します。まず、対象の PDF ファイルをロードしてから、Document クラスの「Info」という名前の DocumentInfo プロパティにアクセスする必要があります。このオブジェクトには、PDF 内のすべてのメタデータ (作成者、変更のタイム ゾーン、プロデューサー、作成日、変更日など) が含まれています。
Python を使用して PDF メタデータを取得するコード
このコードは、Python を使用して PDF メタデータを取得する手順を示しています。 DocumentInfo クラス オブジェクトは、読み込まれたドキュメントからアクセスされます。このドキュメントには、トラップ フラグ、タイトル、件名、ドキュメントのキーワード、作成者などの多くのメタデータ情報が含まれています。これらのプロパティを追加する場合は、DocumentInfo.add() メソッドを使用し、clear() メソッドを使用してメタデータをクリアし、remove() メソッドを使用して指定されたメタデータのみを削除します。
この記事では、PDF からメタデータを取得するプロセスについて説明しました。 PDF コンテンツを読むプロセスを知りたい場合は、Python で PDF コンテンツを読む方法 の記事を参照してください。