このクイック チュートリアルでは、Python で PDF コンテンツを読む方法 について説明します。アプリケーションで使用するすべてのリソース、必要なクラス、およびメソッドを紹介します。また、他のサードパーティ製ツールを使用せずに、非常に数行のコードのみを使用して python を使用して pdf を読み取る ための実行可能なサンプル コードも含まれています。
Python で PDF を読む手順
- PDF テキストを読み取るには、IDE を .NET 経由で Aspose.PDF for Python を使用 に設定します
- データを読み取る Document オブジェクトを使用してソース PDF ファイルを読み込みます
- TextAbsorber オブジェクトをインスタンス化して、PDF からテキストを抽出します
- accept() メソッドを呼び出して、ロードされた PDF ファイルのテキスト全体を読み取ります
- TextAbsorber オブジェクトの Text プロパティを使用して、抽出されたテキストを表示します
これらの手順は、PDF ファイルをロードする Document クラス、PDF からテキストを取得する TextAbsorber クラス オブジェクト、および実際にテキスト プロパティを埋める accept() メソッドを導入することにより、Python で PDF ファイルを読み取る プロセスを要約したものです。 TextAbsorber オブジェクト。 accept() メソッドが呼び出されると、 text プロパティの文字列データを出力または解析して、以降の処理を行うことができます。
Python で PDF ファイルを読み取るコード
上記のコード セグメントは、Python を使用して PDF ファイルからデータを抽出するプロセスを示しています。 TextAbsorber クラスは TextFormattingMode をサポートして、pure、raw、flattened、またはメモリ節約モードでテキストを抽出します。さらに、TextAbsorber クラスは、PDF からデータをフェッチしているときにエラー リストを返し、PDF ページからテキストをフェッチする四角形の定義をサポートします。
この記事では、Python で PDF を読む 方法を学びました。 PDF からブックマークを読み取るプロセスについては、Pythonを使用してPDFでブックマークを読む方法 の記事を参照してください。