Tutorial singkat ini menjelaskan proses cara membaca tabel PDF dengan Python. Ini menyajikan semua informasi dasar untuk menyetel lingkungan pengembangan, urutan langkah untuk menulis aplikasi, dan kode contoh yang dapat dijalankan untuk mengekstrak tabel dari PDF dengan Python. Anda akan mendapatkan panduan untuk mengakses setiap sel tabel dan kemudian mengambil semua data di dalamnya.
Langkah-langkah untuk Mengekstrak Data Tabel dari PDF menggunakan Python
- Setel lingkungan ke gunakan Aspose.PDF untuk Python melalui .NET untuk membaca tabel
- Muat file PDF sumber menggunakan kelas Document yang memiliki tabel
- Buat instance objek kelas TableAbsorber untuk membaca tabel dari file PDF yang dimuat
- Pilih halaman dan parsing semua tabel di dalamnya
- Akses tabel pertama dan urai baris dan kolom untuk mengambil semua instance TextFragment dalam sel
- Parsing semua fragmen teks dan tampilkan teks di setiap fragmen
Langkah-langkah ini menjelaskan proses untuk membaca tabel PDF dengan Python. Proses dimulai dengan memuat file PDF kemudian membuat objek TableAbsorber yang memiliki metode untuk membaca tabel dari file PDF. Setelah semua tabel diuraikan pada halaman tertentu, tabel pertama diakses dari koleksi dan kemudian setiap baris dan kolom diuraikan untuk mendapatkan kumpulan fragmen teks di dalamnya untuk mengambil data.
Kode untuk Mengekstrak Tabel dari PDF menggunakan Python
Kode di atas menunjukkan bagaimana menggunakan python read pdf table dan mengambil datanya untuk diproses. Saat kita memanggil metode visit() di kelas TableAbsorber, ini akan mengisi larik table_list yang digunakan untuk mengakses tabel individual. Setiap tabel dalam kumpulan tabel memiliki properti row_list yang memiliki properti cell_list yang menyediakan akses ke kumpulan kolom dan akhirnya Anda mencapai properti text_fragments untuk mendapatkan kumpulan data dalam sel tertentu.
Artikel ini telah mengajarkan kita bahwa untuk mengekstrak tabel dari PDF Python dapat digunakan dengan mudah. Jika Anda ingin mempelajari proses membaca bookmark dalam PDF, lihat artikel di cara membaca bookmark di PDF menggunakan Python.