Hur man läser PDF-tabell i Python

Denna korta handledning beskriver processen för hur man läser tabellen PDF i Python. Den presenterar all grundläggande information för att ställa in utvecklingsmiljön, en sekvens av steg för att skriva applikationen och en körbar exempelkod för att extrahera tabell från PDF i Python. Du kommer att få vägledning för att komma åt varje cell i tabellen och sedan hämta all data i den.

Steg för att extrahera tabelldata från PDF med Python

  1. Ställ in miljön på använd Aspose.PDF för Python via .NET för att läsa tabeller
  2. Ladda käll-PDF-filen med klassen Document med en tabell
  3. Skapa en instans av klassobjektet TableAbsorber för att läsa tabeller från den inlästa PDF-filen
  4. Välj en sida och analysera alla tabeller i den
  5. Gå till den första tabellen och analysera rader och kolumner för att hämta alla TextFragment-instanser i en cell
  6. Analysera alla textfragment och visa text i varje fragment

Dessa steg förklarar processen för att läsa PDF-tabell i Python. Processen påbörjas genom att ladda PDF-filen och sedan skapa TableAbsorber-objektet som har metoder för att läsa tabeller från en PDF-fil. När alla tabeller har tolkats på en viss sida nås den första tabellen från samlingen och sedan analyseras varje rad och kolumn för att få samlingen av textfragment i den för att hämta data.

Kod för att extrahera tabell från PDF med Python

Ovanstående kod visar att hur man använder python läser pdf-tabellen och hämtar dess data för bearbetning. När vi anropar metoden visit() i klassen TableAbsorber, fyller den arrayen table_list som används för att komma åt enskilda tabeller. Varje tabell i tabellsamlingen har row_list-egenskapen som har en cell_list-egenskap som ger tillgång till kolumnsamlingen och slutligen når du text_fragments-egenskapen för att få insamlingen av data i en viss cell.

Den här artikeln har lärt oss att extrahera tabell från PDF Python enkelt kan användas. Om du vill lära dig processen för att läsa bokmärken i en PDF, se artikeln om hur man läser bokmärken i PDF med Python.

 Svenska