Този кратък урок описва процеса на как да се чете таблица PDF в Python. Той представя цялата основна информация за настройка на средата за разработка, последователност от стъпки за писане на приложението и изпълним примерен код за извличане на таблица от PDF в Python. Ще получите насоки за достъп до всяка клетка от таблицата и след това за извличане на всички данни в нея.
Стъпки за извличане на таблични данни от PDF с помощта на Python
- Задайте средата на използвайте Aspose.PDF за Python чрез .NET, за да четете таблици
- Заредете изходния PDF файл, като използвате класа Document с таблица
- Създайте екземпляр на обекта от клас TableAbsorber, за да четете таблици от заредения PDF файл
- Изберете страница и анализирайте всички таблици в нея
- Достъп до първата таблица и анализирайте редове и колони, за да извлечете всички TextFragment екземпляри в клетка
- Анализирайте всички текстови фрагменти и покажете текст във всеки фрагмент
Тези стъпки обясняват процеса за четене на PDF таблица в Python. Процесът започва чрез зареждане на PDF файла и след това създаване на обект TableAbsorber, който има методи за четене на таблици от PDF файл. След като всички таблици са анализирани на определена страница, първата таблица е достъпна от колекцията и след това всеки ред и колона се анализират, за да се получи колекцията от текстови фрагменти в нея за извличане на данните.
Код за извличане на таблица от PDF с помощта на Python
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load source PDF | |
pdfDocument = pdf.Document("PdfWithTable.pdf") | |
# Declare and initialize TableAbsorber object | |
tableAbsorber = pdf.text.TableAbsorber() | |
# Parse all the tables | |
tableAbsorber.visit(pdfDocument.pages[1]) | |
# Get a reference to the first table | |
absorbedTable = tableAbsorber.table_list[0] | |
# Iterate through all the rows | |
for pdfTableRow in absorbedTable.row_list: | |
# Iterate through all the columns | |
for pdfTableCell in pdfTableRow.cell_list: | |
# Fetch the text fragments | |
textFragmentCollection = pdfTableCell.text_fragments | |
# Iterate through the text fragments | |
for textFragment in textFragmentCollection: | |
# Display the text | |
print(textFragment.text) | |
print("Data read successfully from the table") |
Горният код показва как с помощта на python чете pdf таблица и извлича нейните данни за обработка. Когато извикаме метода visit() в класа TableAbsorber, той запълва масива table_list, който се използва за достъп до отделни таблици. Всяка таблица в колекцията от таблици има свойството row_list, което има свойство cell_list, предоставящо достъп до колекцията от колони и накрая достигате до свойството text_fragments, за да получите колекцията от данни в конкретна клетка.
Тази статия ни научи, че за извличане на таблица от PDF Python може лесно да се използва. Ако искате да научите процеса за четене на отметки в PDF, вижте статията на как да четете отметки в PDF с помощта на Python.