PDF-táblázat olvasása Pythonban

Ez a rövid oktatóanyag leírja a folyamatot, hogyan kell olvasni a PDF táblázatot Pythonban. Megmutatja a fejlesztői környezet beállításához szükséges összes alapvető információt, az alkalmazás megírásának lépéseit, valamint egy futtatható mintakódot a PDF-ből a Pythonban táblázat kibontásához. Útmutatást kap a táblázat egyes celláinak eléréséhez, majd az összes adat lekéréséhez.

A táblázat adatainak PDF-ből Python segítségével történő kivonatának lépései

  1. A táblázatok olvasásához állítsa a környezetet használja az Aspose.PDF-et Pythonhoz .NET-en keresztül értékre
  2. Töltse be a forrás PDF-fájlt a táblázattal rendelkező Document osztály használatával
  3. Hozzon létre egy példányt a TableAbsorber osztály objektumból, hogy beolvassa a táblázatokat a betöltött PDF-fájlból
  4. Válasszon ki egy oldalt, és elemezze az összes táblát
  5. Nyissa meg az első táblázatot, és elemezze a sorokat és oszlopokat, hogy lekérje az összes TextFragment példányt egy cellában
  6. Elemezze át az összes szövegrészletet, és jelenítse meg a szöveget az egyes töredékekben

Ezek a lépések elmagyarázzák a PDF-táblázat Pythonban való olvasásának folyamatát. A folyamat a PDF-fájl betöltésével, majd a TableAbsorber objektum létrehozásával kezdődik, amely rendelkezik a táblázatok PDF-fájlból történő olvasására szolgáló módszerekkel. Miután az összes tábla elemzése megtörtént egy adott oldalon, az első táblázat elérése a gyűjteményből, majd minden sor és oszlop elemzése megtörténik, hogy megkapja a benne lévő szövegrészletek gyűjteményét az adatok lekéréséhez.

Kód a táblázat PDF-ből történő kivonásához Python használatával

A fenti kód megmutatja, hogy a python használatával hogyan olvassa el a pdf-táblázatot, és hogyan kéri le az adatait feldolgozásra. Amikor a TableAbsorber osztályban meghívjuk a visit() metódust, akkor az kitölti az egyes táblák eléréséhez használt table_list tömböt. A táblázatok gyűjteményében minden tábla rendelkezik row_list tulajdonsággal, amely rendelkezik egy cell_list tulajdonsággal, amely hozzáférést biztosít az oszlopok gyűjteményéhez, és végül eléri a text_fragments tulajdonságot, hogy megkapja az adatgyűjtést egy adott cellában.

Ez a cikk megtanított minket arra, hogy a táblázat PDF-ből való kibontása a Python könnyen használható. Ha szeretné megismerni a könyvjelzők PDF-ben történő olvasásának folyamatát, olvassa el a következő cikket: hogyan lehet könyvjelzőket olvasni PDF-ben Python használatával.

 Magyar