Как да четем PDF таблица в Python

Този кратък урок описва процеса на как да се чете таблица PDF в Python. Той представя цялата основна информация за настройка на средата за разработка, последователност от стъпки за писане на приложението и изпълним примерен код за извличане на таблица от PDF в Python. Ще получите насоки за достъп до всяка клетка от таблицата и след това за извличане на всички данни в нея.

Стъпки за извличане на таблични данни от PDF с помощта на Python

  1. Задайте средата на използвайте Aspose.PDF за Python чрез .NET, за да четете таблици
  2. Заредете изходния PDF файл, като използвате класа Document с таблица
  3. Създайте екземпляр на обекта от клас TableAbsorber, за да четете таблици от заредения PDF файл
  4. Изберете страница и анализирайте всички таблици в нея
  5. Достъп до първата таблица и анализирайте редове и колони, за да извлечете всички TextFragment екземпляри в клетка
  6. Анализирайте всички текстови фрагменти и покажете текст във всеки фрагмент

Тези стъпки обясняват процеса за четене на PDF таблица в Python. Процесът започва чрез зареждане на PDF файла и след това създаване на обект TableAbsorber, който има методи за четене на таблици от PDF файл. След като всички таблици са анализирани на определена страница, първата таблица е достъпна от колекцията и след това всеки ред и колона се анализират, за да се получи колекцията от текстови фрагменти в нея за извличане на данните.

Код за извличане на таблица от PDF с помощта на Python

Горният код показва как с помощта на python чете pdf таблица и извлича нейните данни за обработка. Когато извикаме метода visit() в класа TableAbsorber, той запълва масива table_list, който се използва за достъп до отделни таблици. Всяка таблица в колекцията от таблици има свойството row_list, което има свойство cell_list, предоставящо достъп до колекцията от колони и накрая достигате до свойството text_fragments, за да получите колекцията от данни в конкретна клетка.

Тази статия ни научи, че за извличане на таблица от PDF Python може лесно да се използва. Ако искате да научите процеса за четене на отметки в PDF, вижте статията на как да четете отметки в PDF с помощта на Python.

 Български