این آموزش سریع شما را در مورد نحوه خواندن محتوای PDF در پایتون راهنمایی می کند. تمام منابع، کلاسهای لازم و روشهای مورد استفاده در برنامه را معرفی میکند. همچنین حاوی یک کد نمونه قابل اجرا برای خواندن pdf با استفاده از پایتون با کمک چند خط کد فقط بدون استفاده از هیچ ابزار شخص ثالث دیگری است.
مراحل خواندن PDF با پایتون
- برای خواندن متن PDF، IDE را روی از Aspose.PDF برای پایتون از طریق دات نت استفاده کنید تنظیم کنید
- فایل PDF منبع را با استفاده از شی Document که دادههای آن خوانده میشود، بارگیری کنید
- برای استخراج متن از PDF، یک شی TextAbsorber را نمونهسازی کنید
- برای خواندن کل متن در فایل PDF بارگذاری شده، متد ()accept را فراخوانی کنید
- متن استخراج شده را با استفاده از ویژگی Text شی TextAbsorber نمایش دهید
این مراحل فرآیند خواندن یک فایل PDF در پایتون را با معرفی کلاس Document برای بارگیری فایل PDF، شی کلاس TextAbsorber برای واکشی متن از PDF، و متد ()accept که در واقع ویژگی متنی را پر می کند، خلاصه می کند. شیء TextAbsorber. پس از فراخوانی متد ()accept، دادههای رشتهای در ویژگی text میتوانند برای پردازش بیشتر چاپ یا تجزیه شوند.
کد برای خواندن فایل PDF در پایتون
بخش کد بالا فرآیند استخراج داده ها از فایل PDF با استفاده از Python را نشان می دهد. کلاس TextAbsorber از TextFormattingMode برای استخراج متن در حالت خالص، خام، مسطح یا ذخیره حافظه پشتیبانی می کند. علاوه بر این، کلاس TextAbsorber هنگام واکشی دادهها از PDF، فهرست خطاها را برمیگرداند و از تعریف مستطیلی پشتیبانی میکند که در آن متن از صفحه Pdf واکشی میشود.
این مقاله به ما یاد داده است که یک PDF را در پایتون بخوانیم. اگر میخواهید فرآیند خواندن نشانکها از PDF را یاد بگیرید، به مقاله نحوه خواندن بوک مارک ها در پی دی اف با استفاده از پایتون مراجعه کنید.