Як читати документ Word на Java

У цьому короткому посібнику представлено інформацію про те, як читати документ Word на Java, надаючи детальну покрокову процедуру та код Java, який читає зразок документа різними способами. Він представляє необхідні класи, які використовуються для читання файлу Word і доступу до його різних сегментів. Під час читання документа Word у коді Java, наприклад DOCX, DOC або інших файлів, які підтримуються MS Word, ви будете переглядати різні дочірні вузли документа та обробляти кожен відповідно до ваших вимог.

Кроки для читання файлу Word у Java

  1. Встановіть Aspose.Words for Java за допомогою репозиторію Maven, щоб прочитати файл DOCX
  2. Завантажте вихідний файл DOCX в об’єкт класу Document для читання в Java
  3. Перегляньте всі вузли типу Paragraph у документі
  4. Перетворіть текст кожного абзацу на рядок і відобразіть його на консолі
  5. Перейдіть по всіх вузлах типу Run у документі
  6. Перетворіть кожен вузол на тип Run і отримайте доступ до назви шрифту, розміру та тексту Run
  7. Відображати текст кожного запуску на консолі

У цих кроках описано як читати файл Word у Java, надавши посилання на сторінку конфігурації, а потім вказуючи, як завантажити вихідний документ Word. Після завантаження файлу Word його об’єктна модель документа (DOM), тобто логічна структура, також завантажується та може аналізуватися різними способами. Ці кроки допомагають підготувати дві основні колекції, тобто «Абзаци» та «Руни», для доступу до різних частин завантаженого документа Word.

Код для читання файлу DOCX на Java

Цей код Java для читання документа Word демонструє розбір DOM за допомогою різних фільтрів, наприклад, спочатку ми отримуємо всі вузли абзаців. Клас Paragraph надає функцію toString(), яка витягує текст із усього абзацу, включаючи таблиці тощо, і зберігає його в рядковій змінній. Подібним чином, коли ми аналізуємо документ, щоб отримати всі цикли, він розділяє вміст на основі його стилю, шрифту, типу вузла тощо та ділить один абзац на кілька сегментів на основі стилю шрифту тексту, наприклад жирний текст буде подано окремо, курсив текст окремо тощо.

Цей підручник допоможе нам прочитати файл DOCX, однак, якщо ви бажаєте перетворення якогось типу Word у PDF, зверніться до статті на як конвертувати Word у PDF на Java.

 Українська