استخراج النص من مستند Word في بايثون

باستخدام هذا المثال، سوف تتعلم كيفية استخراج Text من مستند Word في لغة Python. كما أنه يوفر المعلومات اللازمة لتكوين بيئة التطوير من خلال الالتزام بسير عمل خطوة بخطوة، ومثال للتعليمات البرمجية لتطوير محول Word إلى TXT باستخدام Python. يمكن دمج هذا التطبيق في أي بيئة تدعم Python وإطار عمل .NET في أنظمة التشغيل Windows أو Linux أو macOS.

خطوات استخراج النص من مستند Word في بايثون

  1. قم بتكوين البيئة عن طريق تثبيت Aspose.Words لـ Python عبر .NET لتحويل ملف DOCX إلى ملف TXT باستخدام Python
  2. باستخدام مثيل للفئة Document، يمكنك الوصول إلى ملف Word DOCX المصدر
  3. استخدم مثيل كائن فئة TxtSaveOptions لتعيين الخصائص المطلوبة
  4. قم بتحويل مستند Word الذي تم تحميله إلى ملف TXT باستخدام طريقة الحفظ

تقوم هذه الخطوات الدقيقة في Python باستخراج النص من ملف DOCX باستخدام واجهة API بسيطة للغاية. ستبدأ العملية بالوصول إلى ملف DOCX المصدر من القرص باستخدام مثيل لفئة المستند، والذي يتبعه بعد ذلك تعيين خصائص ملف TXT الناتج المطلوب باستخدام كائن فئة TxtSaveOptions. وأخيرًا، يتم حفظ ملف مستند Word الذي تم تحميله كملف TXT على القرص باستخدام طريقة الحفظ.

رمز لتحويل DOCX إلى TXT في بايثون

يوضح المثال قدرة واجهة برمجة التطبيقات (API) على تحويل DOCX إلى TXT في Python. يعد استخدام مثيل فئة TxtSaveOptions أمرًا اختياريًا ويمكنك حفظ ملف TXT باستخدام الخيارات الافتراضية. ومع ذلك، إذا كنت ترغب في تخصيص ملف TXT الناتج، فيمكنك استخدام خصائص مختلفة تعرضها فئة TxtSaveOptions بما في ذلك ترميز الإعدادات، وforce_page_breaks، وmax_characters_per_line، وpara_break، و Pretty_format على سبيل المثال لا الحصر.

في هذه المقالة، تعلمنا أنه من أجل استخراج النص من واجهة برمجة التطبيقات المستندة إلى DOCX Python يمكن أن يكون خيارًا جيدًا. إذا كنت تريد أن تتعلم كيفية مقارنة مستندات PDF، فارجع إلى المقالة الموجودة على مقارنة مستندات PDF باستخدام بايثون.

 عربي