このドキュメントでは、Python を使用して PDF から Excel へテーブルを抽出する方法を説明します。Aspose.PDF と Aspose.Cells の両製品を活用するための詳細、手順の一覧、および Python で PDF から Excel テーブルを抽出するサンプルコード が含まれています。サンプルコードは、PDF ページから Excel シートへテーブルを転送する完全なプロセスを示します。
Python を使って PDF から Excel へテーブルを抽出する手順
- 環境を設定して Aspose.Total For Python via .NET をインストールします
- 関連するインポートされたライブラリ(Aspose.Cells と Aspose。PDF)に対してライセンスを適用する
- Document クラスオブジェクトを使用して、テーブルを含むソースPDFファイルをロードする
- Workbook クラスを使用して空の Excel ファイルを作成し、最初のシートに名前を設定します
- PDFファイルのページコレクション内の各ページを繰り返し処理する
- テーブルのコレクションにアクセスし、テーブル内の各セルを解析します
- PDFセルからテキストを取得し、Excelシートの該当セルにコピーする
- PDF の表データを含む Excel ファイルをディスクに保存する
これらの手順は、Python を使用して PDF テーブルから Excel へデータを抽出するプロセスを含みます。必要なライブラリをインポートし、ソース PDF ファイルを読み込み、各ページとそのページ上のテーブルのコレクションにアクセスし、すべてのテーブルを解析します。最後に、PDF の各セルにアクセスし、その内容を出力 Excel ワークシートの対応するセルに保存します。
Pythonを使用してPDFからテーブルをExcelに抽出するコード
このコードは、Python を使用して PDF から Excel へテーブルを取得する 方法を示しています。TableAbsorber クラスの use_flow_engine オプションを使用して、PDF の枠なしテーブルを検出する別のテーブル認識エンジンを試すことができます。吸収されたセルの text_state を使用して、フォント名、サイズ、背景色、前景色、太字イタリックスタイルを取得し、宛先の Excel セルの書式をカスタマイズして、両方のファイルでテーブルの書式を同様に保ちます。
この記事は、PDFテーブルをExcelに転送するプロセスの理解に役立ちました。Aspose.Python 用 PDF via ..NET を実行するために Python をインストールするには、記事「How to Install Python to Run Aspose」を参照してください。Python 用 PDF via .NET]( https://kb.aspose.com/ ja/total/python/how-to-install-python-to-run-aspose-pdf-for-python-via-net/) を参照してください。