Come leggere la tabella PDF in Python

Questo breve tutorial descrive il processo di come leggere la tabella PDF in Python. Presenta tutte le informazioni di base per impostare l’ambiente di sviluppo, una sequenza di passaggi per scrivere l’applicazione e un codice di esempio eseguibile per estrarre la tabella dal PDF in Python. Otterrai una guida per accedere a ciascuna cella della tabella e quindi recuperare tutti i dati in essa contenuti.

Passaggi per estrarre i dati della tabella da PDF utilizzando Python

  1. Imposta l’ambiente su usa Aspose.PDF per Python tramite .NET per leggere le tabelle
  2. Carica il file PDF di origine utilizzando la classe Document con una tabella
  3. Creare un’istanza dell’oggetto della classe TableAbsorber per leggere le tabelle dal file PDF caricato
  4. Seleziona una pagina e analizza tutte le tabelle in essa contenute
  5. Accedi alla prima tabella e analizza righe e colonne per recuperare tutte le TextFragment istanze in una cella
  6. Analizza tutti i frammenti di testo e visualizza il testo in ogni frammento

Questi passaggi spiegano il processo per leggere la tabella PDF in Python. Il processo viene avviato caricando il file PDF e quindi creando l’oggetto TableAbsorber che dispone di metodi per leggere le tabelle da un file PDF. Una volta che tutte le tabelle sono state analizzate su una particolare pagina, si accede alla prima tabella dalla raccolta e quindi ogni riga e colonna viene analizzata per ottenere la raccolta di frammenti di testo al suo interno per il recupero dei dati.

Codice per estrarre la tabella dal PDF utilizzando Python

import aspose.pdf as pdf
# Load the license
license = pdf.License()
license.set_license("Aspose.Total.lic")
# Load source PDF
pdfDocument = pdf.Document("PdfWithTable.pdf")
# Declare and initialize TableAbsorber object
tableAbsorber = pdf.text.TableAbsorber()
# Parse all the tables
tableAbsorber.visit(pdfDocument.pages[1])
# Get a reference to the first table
absorbedTable = tableAbsorber.table_list[0]
# Iterate through all the rows
for pdfTableRow in absorbedTable.row_list:
# Iterate through all the columns
for pdfTableCell in pdfTableRow.cell_list:
# Fetch the text fragments
textFragmentCollection = pdfTableCell.text_fragments
# Iterate through the text fragments
for textFragment in textFragmentCollection:
# Display the text
print(textFragment.text)
print("Data read successfully from the table")

Il codice sopra mostra come usare python leggere la tabella pdf e recuperare i suoi dati per l’elaborazione. Quando chiamiamo il metodo visit() nella classe TableAbsorber, riempie l’array table_list utilizzato per accedere alle singole tabelle. Ogni tabella nella raccolta delle tabelle ha una proprietà row_list che ha una proprietà cell_list che fornisce l’accesso alla raccolta delle colonne e infine si raggiunge la proprietà text_fragments per ottenere la raccolta di dati in una determinata cella.

Questo articolo ci ha insegnato che estrarre una tabella da PDF Python può essere usato facilmente. Se vuoi imparare il processo per leggere i segnalibri in un PDF, fai riferimento all’articolo su come leggere i segnalibri in PDF usando Python.

 Italiano