Hoe PDF-tabel in Python te lezen

Deze korte tutorial beschrijft het proces van hoe de PDF-tabel in Python te lezen. Het bevat alle basisinformatie om de ontwikkelomgeving in te stellen, een reeks stappen om de toepassing te schrijven en een uitvoerbare voorbeeldcode om tabel uit PDF in Python te extraheren. U krijgt begeleiding om toegang te krijgen tot elke cel van de tabel en vervolgens alle gegevens erin op te halen.

Stappen om tabelgegevens uit PDF te extraheren met behulp van Python

  1. Stel de omgeving in op gebruik Aspose.PDF voor Python via .NET om tabellen te lezen
  2. Laad het PDF-bronbestand met behulp van de klasse Document met een tabel
  3. Maak een instantie van het klasseobject TableAbsorber om tabellen uit het geladen PDF-bestand te lezen
  4. Selecteer een pagina en ontleed alle tabellen erop
  5. Toegang tot de eerste tabel en ontleed rijen en kolommen om alle TextFragment instanties in een cel op te halen
  6. Doorloop alle tekstfragmenten en toon tekst in elk fragment

Deze stappen leggen het proces uit om PDF-tabel in Python te lezen. Het proces wordt gestart door het PDF-bestand te laden en vervolgens het TableAbsorber-object te maken dat methoden heeft om tabellen uit een PDF-bestand te lezen. Zodra alle tabellen op een bepaalde pagina zijn ontleed, wordt de eerste tabel geopend vanuit de verzameling en vervolgens wordt elke rij en kolom ontleed om de verzameling tekstfragmenten erin te krijgen voor het ophalen van de gegevens.

Code om tabel uit PDF te extraheren met behulp van Python

import aspose.pdf as pdf
# Load the license
license = pdf.License()
license.set_license("Aspose.Total.lic")
# Load source PDF
pdfDocument = pdf.Document("PdfWithTable.pdf")
# Declare and initialize TableAbsorber object
tableAbsorber = pdf.text.TableAbsorber()
# Parse all the tables
tableAbsorber.visit(pdfDocument.pages[1])
# Get a reference to the first table
absorbedTable = tableAbsorber.table_list[0]
# Iterate through all the rows
for pdfTableRow in absorbedTable.row_list:
# Iterate through all the columns
for pdfTableCell in pdfTableRow.cell_list:
# Fetch the text fragments
textFragmentCollection = pdfTableCell.text_fragments
# Iterate through the text fragments
for textFragment in textFragmentCollection:
# Display the text
print(textFragment.text)
print("Data read successfully from the table")

De bovenstaande code laat zien hoe python pdf-tabel leest en de gegevens ophaalt voor verwerking. Wanneer we de methode visit() in de TableAbsorber-klasse aanroepen, vult deze de table_list-array die wordt gebruikt om toegang te krijgen tot individuele tabellen. Elke tabel in de verzameling tabellen heeft de eigenschap row_list die een eigenschap cell_list heeft die toegang geeft tot de verzameling kolommen en uiteindelijk bereik je de eigenschap text_fragments om de verzameling gegevens in een bepaalde cel te krijgen.

Dit artikel heeft ons geleerd dat om tabel uit PDF te extraheren Python gemakkelijk kan worden gebruikt. Als je het proces wilt leren om bladwijzers in een pdf te lezen, raadpleeg dan het artikel op hoe bladwijzers in PDF te lezen met behulp van Python.

 Nederlands