Šioje trumpoje pamokoje aprašomas procesas, kaip skaityti PDF lentelę Python. Jame pateikiama visa pagrindinė informacija, skirta kūrimo aplinkai nustatyti, veiksmų seka programai rašyti ir vykdomas pavyzdinis kodas, skirtas išskleisti lentelę iš PDF programoje Python. Gausite nurodymus, kaip pasiekti kiekvieną lentelės langelį ir tada gauti visus joje esančius duomenis.
Veiksmai, kaip ištraukti lentelės duomenis iš PDF naudojant Python
- Norėdami skaityti lenteles, nustatykite aplinką į naudokite Aspose.PDF, skirtą Python per .NET
- Įkelkite šaltinio PDF failą naudodami Document klasę su lentele
- Sukurkite TableAbsorber klasės objekto egzempliorių, kad galėtumėte skaityti lenteles iš įkelto PDF failo
- Pasirinkite puslapį ir išanalizuokite visas jame esančias lenteles
- Pasiekite pirmąją lentelę ir analizuokite eilutes bei stulpelius, kad gautumėte visus TextFragment egzempliorius langelyje
- Išnagrinėkite visus teksto fragmentus ir rodykite tekstą kiekviename fragmente
Šie veiksmai paaiškina, kaip skaityti PDF lentelę Python. Procesas pradedamas įkeliant PDF failą ir tada sukuriant objektą TableAbsorber, kuris turi metodus, leidžiančius nuskaityti lenteles iš PDF failo. Išnagrinėjus visas lenteles konkrečiame puslapyje, pirmoji lentelė pasiekiama iš rinkinio, o tada kiekviena eilutė ir stulpelis išanalizuojami, kad būtų galima gauti teksto fragmentų rinkinį duomenims gauti.
Kodas, skirtas ištraukti lentelę iš PDF naudojant Python
Aukščiau pateiktas kodas parodo, kaip naudojant python skaityti pdf lentelę ir gauti jos duomenis apdoroti. Kai TableAbsorber klasėje iškviečiame metodą visit(), jis užpildo table_list masyvą, kuris naudojamas atskiroms lentelėms pasiekti. Kiekviena lentelių rinkinio lentelė turi ypatybę row_list, kuri turi cell_list ypatybę, suteikiančią prieigą prie stulpelių rinkinio, ir galiausiai pasieksite ypatybę text_fragments, kad gautumėte duomenų rinkinį konkrečiame langelyje.
Šis straipsnis mus išmokė, kad išskleisti lentelę iš PDF Python galima lengvai naudoti. Jei norite sužinoti, kaip skaityti žymes PDF faile, žr. straipsnį kaip skaityti žymes PDF naudojant Python.