Ovaj kratki vodič opisuje proces kako čitati tablicu PDF u Pythonu. Predstavlja sve osnovne informacije za postavljanje razvojnog okruženja, niz koraka za pisanje aplikacije i primjer koda koji se može izvoditi za izdvajanje tablice iz PDF-a u Pythonu. Dobit ćete upute za pristup svakoj ćeliji tablice i zatim dohvaćanje svih podataka u njoj.
Koraci za izdvajanje tabličnih podataka iz PDF-a pomoću Pythona
- Postavite okruženje na koristite Aspose.PDF za Python putem .NET-a za čitanje tablica
- Učitajte izvornu PDF datoteku pomoću klase Document koja ima tablicu
- Stvorite instancu objekta klase TableAbsorber za čitanje tablica iz učitane PDF datoteke
- Odaberite stranicu i analizirajte sve tablice u njoj
- Pristupite prvoj tablici i raščlanite retke i stupce da dohvatite sve TextFragment instance u ćeliji
- Raščlanite sve fragmente teksta i prikažite tekst u svakom fragmentu
Ovi koraci objašnjavaju postupak čitanja PDF tablice u Pythonu. Proces započinje učitavanjem PDF datoteke i stvaranjem objekta TableAbsorber koji ima metode za čitanje tablica iz PDF datoteke. Nakon što su sve tablice raščlanjene na određenoj stranici, prvoj se tablici pristupa iz zbirke, a zatim se raščlanjuju svaki redak i stupac kako bi se dobila zbirka fragmenata teksta u njoj za dohvaćanje podataka.
Kod za izdvajanje tablice iz PDF-a pomoću Pythona
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load source PDF | |
pdfDocument = pdf.Document("PdfWithTable.pdf") | |
# Declare and initialize TableAbsorber object | |
tableAbsorber = pdf.text.TableAbsorber() | |
# Parse all the tables | |
tableAbsorber.visit(pdfDocument.pages[1]) | |
# Get a reference to the first table | |
absorbedTable = tableAbsorber.table_list[0] | |
# Iterate through all the rows | |
for pdfTableRow in absorbedTable.row_list: | |
# Iterate through all the columns | |
for pdfTableCell in pdfTableRow.cell_list: | |
# Fetch the text fragments | |
textFragmentCollection = pdfTableCell.text_fragments | |
# Iterate through the text fragments | |
for textFragment in textFragmentCollection: | |
# Display the text | |
print(textFragment.text) | |
print("Data read successfully from the table") |
Gornji kod pokazuje kako pomoću pythona čitati pdf tablicu i dohvaćati njezine podatke za obradu. Kada pozovemo metodu visit() u klasi TableAbsorber, ona ispunjava niz table_list koji se koristi za pristup pojedinačnim tablicama. Svaka tablica u kolekciji tablica ima svojstvo row_list koje ima svojstvo cell_list koje omogućuje pristup kolekciji stupaca i konačno dolazite do svojstva text_fragments da biste dobili zbirku podataka u određenoj ćeliji.
Ovaj nas je članak naučio da ekstrahiranje tablice iz PDF-a može jednostavno upotrijebiti Python. Ako želite naučiti postupak čitanja knjižnih oznaka u PDF-u, pogledajte članak na kako čitati knjižne oznake u PDF-u pomoću Pythona.