استخراج متن از سند Word در جاوا

می توان با مراجعه به این مقاله ساده، Text را از سند Word در جاوا استخراج کرد**. این شامل مراحل لازم برای راه اندازی محیط توسعه، گردش کار برنامه گام به گام، و یک کد مثال در حال اجرا برای تبدیل DOCX به TXT در جاوا است. برنامه توسعه‌یافته را می‌توان در هر محیطی که از جاوا پشتیبانی می‌کند در لینوکس، MS Windows یا macOS استفاده کرد.

مراحل توسعه تبدیل Word به TXT با استفاده از جاوا

  1. پیکربندی محیط با نصب Aspose.Words for Java از مدیر مخزن برای تبدیل فایل DOCX به فایل TXT با استفاده از جاوا
  2. با ایجاد یک نمونه از کلاس Document برای تبدیل فایل Word به TXT، سند منبع Word را باز کنید.
  3. یک شی کلاس TxtSaveOptions برای تنظیم خصوصیات فایل TXT خروجی مورد نیاز ایجاد کنید
  4. با استفاده از روش ذخیره، فایل DOCX بارگذاری شده را به عنوان فایل TXT روی دیسک ذخیره کنید

این مراحل دقیق در جاوا استخراج متن از سند Word با استفاده از یک رابط API ساده. ابتدا فایل DOCX منبع را با استفاده از نمونه‌ای از کلاس Document از روی دیسک بارگذاری می‌کنیم، که سپس با تنظیم گزینه‌های خروجی خروجی فایل TXT با استفاده از نمونه‌ای از کلاس TxtSaveOptions دنبال می‌شود. در نهایت، سند Word باز شده به عنوان یک فایل TXT روی دیسک با استفاده از روش ذخیره ذخیره می شود.

کد برای تبدیل DOCX به TXT در جاوا

برای دسترسی به منبع DOCX از دیسک و Extract Text از Word Document API مبتنی بر Java در مثال کد فوق استفاده شده است. می توان یک فایل TXT را بدون تکیه بر نمونه کلاس اختیاری TxtSaveOptions روی دیسک ذخیره کرد. با این حال، اگر می‌خواهید فایل TXT مورد نظر را سفارشی کنید، می‌توانید از روش‌های مختلف تنظیم‌کننده که توسط کلاس TxtSaveOptions در معرض دید قرار گرفته‌اند، از جمله setEncoding()، setForcePageBreaks()، setMaxCharactersPerLine()، setParagraphBreak() و setPrettyFormat() برای نام بردن چند مورد استفاده کنید.

این مقاله ما را روشن کرده است تا با استفاده از جاوا * تبدیل *Word به TXT را توسعه دهیم. اگر علاقه مند به مقایسه اسناد Word هستید، به مقاله مقایسه اسناد Word با استفاده از جاوا مراجعه کنید.

 فارسی