Цей короткий посібник описує процес як читати таблицю PDF у Python. У ньому представлено всю основну інформацію для налаштування середовища розробки, послідовність кроків для написання програми та приклад коду для вилучення таблиці з PDF на Python. Ви отримаєте вказівки щодо доступу до кожної комірки таблиці та отримання всіх даних у ній.
Кроки для вилучення даних таблиці з PDF за допомогою Python
- Для читання таблиць установіть середовище використовуйте Aspose.PDF для Python через .NET
- Завантажте вихідний файл PDF за допомогою класу Document із таблицею
- Створіть екземпляр об’єкта класу TableAbsorber для читання таблиць із завантаженого файлу PDF
- Виберіть сторінку та проаналізуйте всі таблиці в ній
- Отримайте доступ до першої таблиці та проаналізуйте рядки та стовпці, щоб отримати всі екземпляри TextFragment у клітинці
- Проаналізуйте всі фрагменти тексту та відобразіть текст у кожному фрагменті
Ці кроки пояснюють процес читання таблиці PDF у Python. Процес починається із завантаження файлу PDF, а потім створення об’єкта TableAbsorber, який має методи для читання таблиць із файлу PDF. Після аналізу всіх таблиць на певній сторінці здійснюється доступ до першої таблиці з колекції, а потім аналізується кожен рядок і стовпець, щоб отримати колекцію текстових фрагментів у ній для отримання даних.
Код для вилучення таблиці з PDF за допомогою Python
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load source PDF | |
pdfDocument = pdf.Document("PdfWithTable.pdf") | |
# Declare and initialize TableAbsorber object | |
tableAbsorber = pdf.text.TableAbsorber() | |
# Parse all the tables | |
tableAbsorber.visit(pdfDocument.pages[1]) | |
# Get a reference to the first table | |
absorbedTable = tableAbsorber.table_list[0] | |
# Iterate through all the rows | |
for pdfTableRow in absorbedTable.row_list: | |
# Iterate through all the columns | |
for pdfTableCell in pdfTableRow.cell_list: | |
# Fetch the text fragments | |
textFragmentCollection = pdfTableCell.text_fragments | |
# Iterate through the text fragments | |
for textFragment in textFragmentCollection: | |
# Display the text | |
print(textFragment.text) | |
print("Data read successfully from the table") |
Наведений вище код показує, як за допомогою python читати pdf-таблицю та отримувати її дані для обробки. Коли ми викликаємо метод visit() у класі TableAbsorber, він заповнює масив table_list, який використовується для доступу до окремих таблиць. Кожна таблиця в колекції таблиць має властивість row_list, яка має властивість cell_list, що надає доступ до колекції стовпців, і, нарешті, ви досягаєте властивості text_fragments, щоб отримати колекцію даних у певній клітинці.
Ця стаття навчила нас, що для вилучення таблиці з PDF-файлу можна легко використовувати Python. Якщо ви хочете дізнатися, як читати закладки в PDF-файлі, перегляньте статтю як читати закладки в PDF за допомогою Python.