Витягніть текст із документа Word на Java

Можна Витягти Text із документа Word у Java, звернувшись до цієї простої статті. Він містить необхідні кроки для налаштування середовища розробки, покроковий робочий процес програми та запущений приклад коду для перетворення DOCX у TXT у Java. Розроблений додаток можна використовувати в будь-якому середовищі з підтримкою Java в Linux, MS Windows або macOS.

Кроки для розробки Word to TXT Converter за допомогою Java

  1. Налаштуйте середовище, встановивши Aspose.Words for Java із менеджера сховища, щоб конвертувати файл DOCX у файл TXT за допомогою Java
  2. Відкрийте вихідний документ Word, створивши екземпляр класу Document для перетворення файлів Word у TXT
  3. Створіть об’єкт класу TxtSaveOptions, щоб установити необхідні властивості вихідного файлу TXT
  4. Збережіть завантажений файл DOCX як файл TXT на диск за допомогою методу збереження

Ці точні дії в Java витягують текст із документа Word за допомогою простого інтерфейсу API. Спочатку ми завантажимо вихідний файл DOCX із диска за допомогою екземпляра класу Document, після чого встановимо бажані параметри експорту файлу TXT за допомогою екземпляра класу TxtSaveOptions. Нарешті, відкритий документ Word зберігається як файл TXT на диску за допомогою методу збереження.

Код для перетворення DOCX на TXT у Java

Для доступу до вихідного документа DOCX із диска та вилучення тексту з документа Word у вищезгаданому прикладі коду використовувався API на основі Java. Можна зберегти файл TXT на диску, не покладаючись на додатковий екземпляр класу TxtSaveOptions. Однак, якщо ви хочете налаштувати потрібний файл TXT, ви можете використовувати різні методи налаштування, надані класом TxtSaveOptions, включаючи setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() і setPrettyFormat(), щоб назвати декілька.

Ця стаття дала нам змогу розробити конвертер Word у TXT за допомогою Java. Якщо вас цікавить порівняння документів Word, перегляньте статтю Порівняйте документи Word за допомогою Java.

 Українська