Извличане на текст от Word документ в Java

Човек може да Извлече Text от документ на Word в Java, като се позовава на тази проста статия. Той включва необходимите стъпки за настройка на средата за разработка, поетапен работен процес на програмата и работещ примерен код за конвертиране на DOCX в TXT в Java. Разработеното приложение може да се използва във всяка поддържана от Java среда в Linux, MS Windows или macOS.

Стъпки за разработване на Word to TXT Converter с помощта на Java

  1. Конфигурирайте средата, като инсталирате Aspose.Words for Java от мениджъра на хранилището, за да конвертирате DOCX файл в TXT файл с помощта на Java
  2. Отворете изходния документ на Word, като създадете екземпляр на класа Document за преобразуване на Word в TXT файл
  3. Създайте обект от клас TxtSaveOptions, за да зададете необходимите свойства на изходния TXT файл
  4. Запазете заредения DOCX файл като TXT файл на диска, като използвате метода за запазване

Тези точни стъпки в Java извличат текст от Word Document с помощта на прост API интерфейс. Първо ще заредим изходния DOCX файл от диска с помощта на екземпляр на класа Document, което след това е последвано от настройка на желаните опции за експортиране на изходен TXT файл с помощта на екземпляр на класа TxtSaveOptions. И накрая, отвореният Word документ се записва като TXT файл на диска с помощта на метода за запазване.

Код за конвертиране на DOCX в TXT в Java

За достъп до изходния DOCX от диск и извличане на текст от документ на Word Java базиран API е използван в гореспоменатия пример за код. Човек може да запише TXT файл на диска, без да разчита на незадължителния екземпляр на класа TxtSaveOptions. Въпреки това, ако искате да персонализирате желания TXT файл, можете да използвате различни методи за настройка, изложени от класа TxtSaveOptions, включително setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() и setPrettyFormat(), за да назовем само няколко.

Тази статия ни просвети да разработим конвертор от Word към TXT с помощта на Java. Ако се интересувате от сравняване на документи на Word, вижте статията на Сравнете Word документи с помощта на Java.

 Български