نحوه خواندن جدول PDF در پایتون

این آموزش مختصر فرآیند نحوه خواندن جدول PDF در پایتون را شرح می‌دهد. تمام اطلاعات اولیه برای تنظیم محیط توسعه، دنباله ای از مراحل برای نوشتن برنامه، و یک کد نمونه قابل اجرا برای استخراج جدول از PDF در پایتون را ارائه می دهد. برای دسترسی به هر سلول جدول و سپس واکشی تمام داده های موجود در آن، راهنمایی دریافت خواهید کرد.

مراحل استخراج داده های جدول از PDF با استفاده از پایتون

  1. برای خواندن جداول، محیط را روی از Aspose.PDF برای پایتون از طریق دات نت استفاده کنید تنظیم کنید
  2. فایل PDF منبع را با استفاده از کلاس Document دارای جدول بارگیری کنید
  3. یک نمونه از شی کلاس TableAbsorber برای خواندن جداول از فایل PDF بارگذاری شده ایجاد کنید
  4. یک صفحه را انتخاب کنید و تمام جداول موجود در آن را تجزیه کنید
  5. به اولین جدول دسترسی پیدا کنید و ردیف ها و ستون ها را تجزیه کنید تا همه نمونه های TextFragment در یک سلول واکشی شوند.
  6. تمام قطعات متن را تجزیه کنید و متن را در هر قطعه نمایش دهید

این مراحل فرآیند خواندن جدول PDF در پایتون را توضیح می دهد. این فرآیند با بارگیری فایل PDF و سپس ایجاد شی TableAbsorber که دارای روش هایی برای خواندن جداول از یک فایل PDF است، آغاز می شود. هنگامی که تمام جداول در یک صفحه خاص تجزیه می شوند، اولین جدول از مجموعه قابل دسترسی است و سپس هر سطر و ستون تجزیه می شود تا مجموعه ای از قطعات متن در آن برای واکشی داده ها به دست آید.

کد برای استخراج جدول از PDF با استفاده از پایتون

کد بالا نشان می دهد که چگونه با استفاده از python جدول pdf را می خواند و داده های آن را برای پردازش واکشی می کند. وقتی متد visit() را در کلاس TableAbsorber فراخوانی می کنیم، آرایه table_list را پر می کند که برای دسترسی به جداول جداگانه استفاده می شود. هر جدول در مجموعه جداول دارای ویژگی row_list است که دارای ویژگی cell_list است که دسترسی به مجموعه ستون ها را فراهم می کند و در نهایت به ویژگی text_fragments برای دریافت مجموعه داده ها در یک سلول خاص می رسید.

این مقاله به ما آموخته است که برای استخراج جدول از PDF Python می توان به راحتی از آن استفاده کرد. اگر می‌خواهید فرآیند خواندن نشانک‌ها را در PDF یاد بگیرید، به مقاله نحوه خواندن نشانک ها در PDF با استفاده از پایتون مراجعه کنید.

 فارسی