Dieses kurze Tutorial beschreibt den Vorgang wie man die PDF-Tabelle in Python liest. Es enthält alle grundlegenden Informationen zum Einrichten der Entwicklungsumgebung, eine Abfolge von Schritten zum Schreiben der Anwendung und einen ausführbaren Beispielcode zum Extrahieren einer Tabelle aus PDF in Python. Sie erhalten Anleitungen, um auf jede Zelle der Tabelle zuzugreifen und dann alle darin enthaltenen Daten abzurufen.
Schritte zum Extrahieren von Tabellendaten aus PDF mit Python
- Legen Sie die Umgebung auf Verwenden Sie Aspose.PDF für Python über .NET fest, um Tabellen zu lesen
- Laden Sie die PDF-Quelldatei mithilfe der Document-Klasse mit einer Tabelle
- Erstellen Sie eine Instanz des TableAbsorber-Klassenobjekts, um Tabellen aus der geladenen PDF-Datei zu lesen
- Wählen Sie eine Seite aus und parsen Sie alle darin enthaltenen Tabellen
- Greifen Sie auf die erste Tabelle zu und analysieren Sie Zeilen und Spalten, um alle TextFragment-Instanzen in einer Zelle abzurufen
- Analysieren Sie alle Textfragmente und zeigen Sie den Text in jedem Fragment an
Diese Schritte erläutern den Prozess zum Lesen der PDF-Tabelle in Python. Der Prozess beginnt mit dem Laden der PDF-Datei und dem anschließenden Erstellen des TableAbsorber-Objekts, das Methoden zum Lesen von Tabellen aus einer PDF-Datei enthält. Sobald alle Tabellen auf einer bestimmten Seite geparst sind, wird auf die erste Tabelle aus der Sammlung zugegriffen, und dann wird jede Zeile und Spalte geparst, um die Sammlung von Textfragmenten darin zum Abrufen der Daten zu erhalten.
Code zum Extrahieren einer Tabelle aus PDF mit Python
Der obige Code zeigt, wie Sie python PDF-Tabelle lesen verwenden und seine Daten zur Verarbeitung abrufen. Wenn wir die Methode visit() in der Klasse TableAbsorber aufrufen, füllt sie das Array table_list, das für den Zugriff auf einzelne Tabellen verwendet wird. Jede Tabelle in der Tabellensammlung hat die row_list-Eigenschaft, die eine cell_list-Eigenschaft hat, die den Zugriff auf die Spaltensammlung ermöglicht, und schließlich erreichen Sie die text_fragments-Eigenschaft, um die Sammlung von Daten in einer bestimmten Zelle zu erhalten.
Dieser Artikel hat uns gelehrt, dass zum Extrahieren einer Tabelle aus PDF Python einfach verwendet werden kann. Wenn Sie mehr über den Vorgang zum Lesen von Lesezeichen in einer PDF-Datei erfahren möchten, lesen Sie den Artikel zu wie man Lesezeichen in PDF mit Python liest.