نحوه خواندن محتوای PDF در پایتون

این آموزش سریع شما را در مورد نحوه خواندن محتوای PDF در پایتون راهنمایی می کند. تمام منابع، کلاس‌های لازم و روش‌های مورد استفاده در برنامه را معرفی می‌کند. همچنین حاوی یک کد نمونه قابل اجرا برای خواندن pdf با استفاده از پایتون با کمک چند خط کد فقط بدون استفاده از هیچ ابزار شخص ثالث دیگری است.

مراحل خواندن PDF با پایتون

  1. برای خواندن متن PDF، IDE را روی از Aspose.PDF برای پایتون از طریق دات نت استفاده کنید تنظیم کنید
  2. فایل PDF منبع را با استفاده از شی Document که داده‌های آن خوانده می‌شود، بارگیری کنید
  3. برای استخراج متن از PDF، یک شی TextAbsorber را نمونه‌سازی کنید
  4. برای خواندن کل متن در فایل PDF بارگذاری شده، متد ()accept را فراخوانی کنید
  5. متن استخراج شده را با استفاده از ویژگی Text شی TextAbsorber نمایش دهید

این مراحل فرآیند خواندن یک فایل PDF در پایتون را با معرفی کلاس Document برای بارگیری فایل PDF، شی کلاس TextAbsorber برای واکشی متن از PDF، و متد ()accept که در واقع ویژگی متنی را پر می کند، خلاصه می کند. شیء TextAbsorber. پس از فراخوانی متد ()accept، داده‌های رشته‌ای در ویژگی text می‌توانند برای پردازش بیشتر چاپ یا تجزیه شوند.

کد برای خواندن فایل PDF در پایتون

بخش کد بالا فرآیند استخراج داده ها از فایل PDF با استفاده از Python را نشان می دهد. کلاس TextAbsorber از TextFormattingMode برای استخراج متن در حالت خالص، خام، مسطح یا ذخیره حافظه پشتیبانی می کند. علاوه بر این، کلاس TextAbsorber هنگام واکشی داده‌ها از PDF، فهرست خطاها را برمی‌گرداند و از تعریف مستطیلی پشتیبانی می‌کند که در آن متن از صفحه Pdf واکشی می‌شود.

این مقاله به ما یاد داده است که یک PDF را در پایتون بخوانیم. اگر می‌خواهید فرآیند خواندن نشانک‌ها از PDF را یاد بگیرید، به مقاله نحوه خواندن بوک مارک ها در پی دی اف با استفاده از پایتون مراجعه کنید.

 فارسی