この簡単なチュートリアルでは、Python で PDF テーブルを読み取る方法 のプロセスについて説明します。開発環境を設定するためのすべての基本情報、アプリケーションを作成するための一連の手順、およびPython で PDF からテーブルを抽出するための実行可能なサンプル コードを示します。テーブルの各セルにアクセスし、その中のすべてのデータを取得するためのガイダンスが表示されます。
Python を使用して PDF からテーブル データを抽出する手順
- テーブルを読み取るために、環境を .NET 経由で Aspose.PDF for Python を使用 に設定します
- テーブルを持つ Document クラスを使用してソース PDF ファイルを読み込みます
- 読み込まれた PDF ファイルからテーブルを読み取るために、TableAbsorber クラス オブジェクトのインスタンスを作成します。
- ページを選択し、その中のすべてのテーブルを解析します
- 最初のテーブルにアクセスし、行と列を解析してセル内のすべての TextFragment インスタンスを取得します
- すべてのテキスト フラグメントを解析し、各フラグメントのテキストを表示します
これらの手順は、Python で PDF テーブルを読み取る プロセスを説明しています。このプロセスは、PDF ファイルをロードしてから、PDF ファイルからテーブルを読み取るメソッドを持つ TableAbsorber オブジェクトを作成することから始まります。特定のページですべてのテーブルが解析されると、最初のテーブルがコレクションからアクセスされ、次に各行と列が解析されて、データをフェッチするためのテキスト フラグメントのコレクションが取得されます。
Python を使用して PDF からテーブルを抽出するコード
上記のコードは、python read pdf table を使用してそのデータを取得して処理する方法を示しています。 TableAbsorber クラスで visit() メソッドを呼び出すと、個々のテーブルにアクセスするために使用される table_list 配列が埋められます。テーブル コレクション内の各テーブルには、列コレクションへのアクセスを提供する cell_list プロパティを持つ row_list プロパティがあり、最終的に text_fragments プロパティに到達して、特定のセル内のデータのコレクションを取得します。
この記事では、PDF からテーブルを抽出する Python を簡単に使用できることを教えてくれました。 PDF のブックマークを読み取るプロセスについて知りたい場合は、Python を使用して PDF のブックマークを読み取る方法 の記事を参照してください。