نحوه خواندن متادیتا PDF با استفاده از پایتون

این آموزش سریع نحوه خواندن فراداده PDF با استفاده از Python را توضیح می دهد. این شامل اطلاعات دقیق برای تنظیم محیط برای توسعه برنامه، یک روش گام به گام، و یک کد نمونه قابل اجرا برای استخراج ابرداده از PDF با استفاده از Python است. شما خواهید آموخت که نوشتن برنامه و دسترسی به اطلاعات فراداده از PDF با استفاده از تماس های بسیار کمی API بدون نصب هیچ ابزار شخص ثالث در هر یک از محیط های پشتیبانی شده توسط Python چقدر آسان است.

مراحل خواندن متادیتا PDF با استفاده از پایتون

  1. محیطی را برای از Aspose.PDF برای پایتون از طریق دات نت استفاده کنید برای خواندن فراداده ایجاد کنید
  2. فایل PDF منبع را با استفاده از شی کلاس Document برای واکشی ابرداده بارگیری کنید
  3. به شیء کلاس DocumentInfo حاوی فراداده PDF دسترسی پیدا کنید
  4. به چند ویژگی اطلاعات دسترسی داشته باشید و آنها را در کنسول نمایش دهید

این مراحل فرآیند مشاهده فراداده PDF با استفاده از پایتون را شرح می دهد. ابتدا باید فایل PDF مورد نظر را بارگیری کنید و سپس به ویژگی DocumentInfo با نام Info در کلاس Document دسترسی پیدا کنید. این شی دارای تمام ابرداده های PDF مانند سازنده، منطقه زمانی اصلاح، سازنده، تاریخ ایجاد و تاریخ اصلاح است.

کد برای دریافت متادیتا PDF با استفاده از پایتون

این کد به سادگی روش واکشی فراداده PDF با استفاده از Python را نشان می دهد. شیء کلاس DocumentInfo از سند بارگیری شده قابل دسترسی است که دارای تعدادی اطلاعات فراداده مانند پرچم به دام افتاده، عنوان، موضوع، کلمات کلیدی سند و نویسنده است. اگر می‌خواهید این ویژگی‌ها را اضافه کنید، می‌توانید از روش DocumentInfo.add() استفاده کنید، از متد clear() برای پاک کردن متادیتا و از متد remove() فقط برای حذف ابرداده‌های مشخص شده استفاده کنید.

این مقاله روند بازیابی ابرداده از PDF را شرح داده است. اگر می‌خواهید فرآیند خواندن محتوای PDF را یاد بگیرید، به مقاله نحوه خواندن محتوای PDF در پایتون مراجعه کنید.

 فارسی