Ez a rövid oktatóanyag leírja a folyamatot, hogyan kell olvasni a PDF táblázatot Pythonban. Megmutatja a fejlesztői környezet beállításához szükséges összes alapvető információt, az alkalmazás megírásának lépéseit, valamint egy futtatható mintakódot a PDF-ből a Pythonban táblázat kibontásához. Útmutatást kap a táblázat egyes celláinak eléréséhez, majd az összes adat lekéréséhez.
A táblázat adatainak PDF-ből Python segítségével történő kivonatának lépései
- A táblázatok olvasásához állítsa a környezetet használja az Aspose.PDF-et Pythonhoz .NET-en keresztül értékre
- Töltse be a forrás PDF-fájlt a táblázattal rendelkező Document osztály használatával
- Hozzon létre egy példányt a TableAbsorber osztály objektumból, hogy beolvassa a táblázatokat a betöltött PDF-fájlból
- Válasszon ki egy oldalt, és elemezze az összes táblát
- Nyissa meg az első táblázatot, és elemezze a sorokat és oszlopokat, hogy lekérje az összes TextFragment példányt egy cellában
- Elemezze át az összes szövegrészletet, és jelenítse meg a szöveget az egyes töredékekben
Ezek a lépések elmagyarázzák a PDF-táblázat Pythonban való olvasásának folyamatát. A folyamat a PDF-fájl betöltésével, majd a TableAbsorber objektum létrehozásával kezdődik, amely rendelkezik a táblázatok PDF-fájlból történő olvasására szolgáló módszerekkel. Miután az összes tábla elemzése megtörtént egy adott oldalon, az első táblázat elérése a gyűjteményből, majd minden sor és oszlop elemzése megtörténik, hogy megkapja a benne lévő szövegrészletek gyűjteményét az adatok lekéréséhez.
Kód a táblázat PDF-ből történő kivonásához Python használatával
A fenti kód megmutatja, hogy a python használatával hogyan olvassa el a pdf-táblázatot, és hogyan kéri le az adatait feldolgozásra. Amikor a TableAbsorber osztályban meghívjuk a visit() metódust, akkor az kitölti az egyes táblák eléréséhez használt table_list tömböt. A táblázatok gyűjteményében minden tábla rendelkezik row_list tulajdonsággal, amely rendelkezik egy cell_list tulajdonsággal, amely hozzáférést biztosít az oszlopok gyűjteményéhez, és végül eléri a text_fragments tulajdonságot, hogy megkapja az adatgyűjtést egy adott cellában.
Ez a cikk megtanított minket arra, hogy a táblázat PDF-ből való kibontása a Python könnyen használható. Ha szeretné megismerni a könyvjelzők PDF-ben történő olvasásának folyamatát, olvassa el a következő cikket: hogyan lehet könyvjelzőket olvasni PDF-ben Python használatával.