با استفاده از این مثال، نحوه استخراج Text را از سند Word در پایتون یاد خواهید گرفت. همچنین اطلاعاتی را برای پیکربندی محیط توسعه با رعایت یک گردش کار گام به گام، و یک کد مثال برای توسعه یک مبدل Word به TXT با استفاده از Python ارائه میکند. این برنامه را می توان در هر محیطی که از پایتون و چارچوب دات نت در ویندوز، لینوکس یا macOS پشتیبانی می کند، ادغام کرد.
مراحل استخراج متن از سند ورد در پایتون
- محیط را با نصب Aspose.Words برای پایتون از طریق دات نت برای تبدیل فایل DOCX به فایل TXT با استفاده از پایتون ایجاد کنید.
- با استفاده از یک نمونه از کلاس Document، به فایل منبع Word DOCX دسترسی پیدا کنید
- از یک نمونه شی کلاس TxtSaveOptions برای تنظیم خصوصیات مورد نیاز استفاده کنید
- با استفاده از روش ذخیره، سند Word بارگذاری شده را به یک فایل TXT تبدیل کنید
این مراحل دقیق در پایتون متن را از فایل DOCX با استفاده از یک رابط API بسیار ساده استخراج می کند. این فرآیند با دسترسی به فایل منبع DOCX از روی دیسک با استفاده از نمونه ای از کلاس Document آغاز می شود که سپس با تنظیم ویژگی های فایل TXT خروجی مورد نظر با استفاده از شی کلاس TxtSaveOptions دنبال می شود. در نهایت، فایل سند Word بارگذاری شده به عنوان یک فایل TXT با استفاده از روش ذخیره بر روی دیسک ذخیره می شود.
کد برای تبدیل DOCX به TXT در پایتون
این مثال قابلیت API را برای تبدیل DOCX به TXT در پایتون نشان می دهد. استفاده از نمونه کلاس TxtSaveOptions اختیاری است و می توانید فایل TXT را با استفاده از گزینه های پیش فرض ذخیره کنید. با این حال، اگر میخواهید فایل TXT خروجی را سفارشی کنید، میتوانید از ویژگیهای متفاوتی که توسط کلاس TxtSaveOptions در معرض دید قرار میگیرند، از جمله تنظیمات encoding، force_page_breaks، max_characters_per_line، paragraph_break و pretty_format استفاده کنید.
در این مقاله یاد گرفتیم که برای استخراج متن از DOCX Python API مبتنی بر DOCX می تواند انتخاب خوبی باشد. اگر می خواهید مقایسه اسناد PDF را یاد بگیرید، به مقاله مقایسه اسناد PDF با استفاده از پایتون مراجعه کنید.