Извлечение таблицы из PDF в Excel с помощью Python

Эта статья описывает, как извлечь таблицу из PDF в Excel с помощью Python. В ней содержатся все детали по использованию обоих продуктов, т. е. Aspose.PDF и Aspose.Cells, список шагов и пример кода для извлечения таблицы Excel из PDF с помощью Python. Пример кода продемонстрирует полный процесс переноса таблицы со страницы PDF в лист Excel.

Шаги по извлечению таблицы из PDF в Excel с помощью Python

  1. Настройте окружение для установки Aspose.Total For Python via .NET
  2. Примените лицензию для соответствующих импортированных библиотек, т.е. Aspose.Cells и Aspose.PDF
  3. Загрузите исходный PDF‑файл с таблицами, используя объект класса Document
  4. Создайте пустой файл Excel, используя класс Workbook и задайте имя первому листу.
  5. Пройдите по каждой странице в наборе страниц PDF‑файла
  6. Получите доступ к коллекции таблиц и пройдите по каждой ячейке в таблице
  7. Получить текст из ячейки PDF и скопировать его в соответствующую ячейку листа Excel
  8. Сохраните файл Excel на диске с данными таблицы из PDF

Эти шаги включают процесс извлечения данных из таблицы PDF в Excel с помощью Python. Импортируйте необходимые библиотеки, загрузите исходный PDF‑файл, получите доступ к каждой странице и коллекции таблиц на ней, и пройдитесь по всем таблицам. Наконец, получите доступ к каждой ячейке в PDF‑таблице и сохраните её содержимое в соответствующей ячейке выходного листа Excel.

Код для извлечения таблицы из PDF в Excel с помощью Python

Этот код демонстрирует, как получить таблицу из PDF в Excel с помощью Python. Вы можете попробовать другой движок распознавания таблиц, используя параметр use_flow_engine в классе TableAbsorber, чтобы обнаруживать таблицы без границ в PDF. Используйте text_state в поглощённой ячейке, чтобы получить название шрифта, размер, цвет фона, цвет переднего плана и стиль жирный курсив для настройки формата целевой ячейки Excel, чтобы сохранить формат таблиц одинаковым в обоих файлах.

Эта статья помогла понять процесс переноса таблицы PDF в Excel. Чтобы установить Python для запуска Aspose.PDF для Python через .NET, обратитесь к статье Как установить Python для запуска Aspose.PDF для Python через .СЕТЬ.

 Русский