Цей короткий посібник описує процес як читати таблицю PDF у Python. У ньому представлено всю основну інформацію для налаштування середовища розробки, послідовність кроків для написання програми та приклад коду для вилучення таблиці з PDF на Python. Ви отримаєте вказівки щодо доступу до кожної комірки таблиці та отримання всіх даних у ній.
Кроки для вилучення даних таблиці з PDF за допомогою Python
- Для читання таблиць установіть середовище використовуйте Aspose.PDF для Python через .NET
- Завантажте вихідний файл PDF за допомогою класу Document із таблицею
- Створіть екземпляр об’єкта класу TableAbsorber для читання таблиць із завантаженого файлу PDF
- Виберіть сторінку та проаналізуйте всі таблиці в ній
- Отримайте доступ до першої таблиці та проаналізуйте рядки та стовпці, щоб отримати всі екземпляри TextFragment у клітинці
- Проаналізуйте всі фрагменти тексту та відобразіть текст у кожному фрагменті
Ці кроки пояснюють процес читання таблиці PDF у Python. Процес починається із завантаження файлу PDF, а потім створення об’єкта TableAbsorber, який має методи для читання таблиць із файлу PDF. Після аналізу всіх таблиць на певній сторінці здійснюється доступ до першої таблиці з колекції, а потім аналізується кожен рядок і стовпець, щоб отримати колекцію текстових фрагментів у ній для отримання даних.
Код для вилучення таблиці з PDF за допомогою Python
Наведений вище код показує, як за допомогою python читати pdf-таблицю та отримувати її дані для обробки. Коли ми викликаємо метод visit() у класі TableAbsorber, він заповнює масив table_list, який використовується для доступу до окремих таблиць. Кожна таблиця в колекції таблиць має властивість row_list, яка має властивість cell_list, що надає доступ до колекції стовпців, і, нарешті, ви досягаєте властивості text_fragments, щоб отримати колекцію даних у певній клітинці.
Ця стаття навчила нас, що для вилучення таблиці з PDF-файлу можна легко використовувати Python. Якщо ви хочете дізнатися, як читати закладки в PDF-файлі, перегляньте статтю як читати закладки в PDF за допомогою Python.