استخراج متن از سند ورد در پایتون

با استفاده از این مثال، نحوه استخراج Text را از سند Word در پایتون یاد خواهید گرفت. همچنین اطلاعاتی را برای پیکربندی محیط توسعه با رعایت یک گردش کار گام به گام، و یک کد مثال برای توسعه یک مبدل Word به TXT با استفاده از Python ارائه می‌کند. این برنامه را می توان در هر محیطی که از پایتون و چارچوب دات نت در ویندوز، لینوکس یا macOS پشتیبانی می کند، ادغام کرد.

مراحل استخراج متن از سند ورد در پایتون

  1. محیط را با نصب Aspose.Words برای پایتون از طریق دات نت برای تبدیل فایل DOCX به فایل TXT با استفاده از پایتون ایجاد کنید.
  2. با استفاده از یک نمونه از کلاس Document، به فایل منبع Word DOCX دسترسی پیدا کنید
  3. از یک نمونه شی کلاس TxtSaveOptions برای تنظیم خصوصیات مورد نیاز استفاده کنید
  4. با استفاده از روش ذخیره، سند Word بارگذاری شده را به یک فایل TXT تبدیل کنید

این مراحل دقیق در پایتون متن را از فایل DOCX با استفاده از یک رابط API بسیار ساده استخراج می کند. این فرآیند با دسترسی به فایل منبع DOCX از روی دیسک با استفاده از نمونه ای از کلاس Document آغاز می شود که سپس با تنظیم ویژگی های فایل TXT خروجی مورد نظر با استفاده از شی کلاس TxtSaveOptions دنبال می شود. در نهایت، فایل سند Word بارگذاری شده به عنوان یک فایل TXT با استفاده از روش ذخیره بر روی دیسک ذخیره می شود.

کد برای تبدیل DOCX به TXT در پایتون

این مثال قابلیت API را برای تبدیل DOCX به TXT در پایتون نشان می دهد. استفاده از نمونه کلاس TxtSaveOptions اختیاری است و می توانید فایل TXT را با استفاده از گزینه های پیش فرض ذخیره کنید. با این حال، اگر می‌خواهید فایل TXT خروجی را سفارشی کنید، می‌توانید از ویژگی‌های متفاوتی که توسط کلاس TxtSaveOptions در معرض دید قرار می‌گیرند، از جمله تنظیمات encoding، force_page_breaks، max_characters_per_line، paragraph_break و pretty_format استفاده کنید.

در این مقاله یاد گرفتیم که برای استخراج متن از DOCX Python API مبتنی بر DOCX می تواند انتخاب خوبی باشد. اگر می خواهید مقایسه اسناد PDF را یاد بگیرید، به مقاله مقایسه اسناد PDF با استفاده از پایتون مراجعه کنید.

 فارسی