У цьому короткому посібнику представлено інформацію про те, як читати документ Word на Java, надаючи детальну покрокову процедуру та код Java, який читає зразок документа різними способами. Він представляє необхідні класи, які використовуються для читання файлу Word і доступу до його різних сегментів. Під час читання документа Word у коді Java, наприклад DOCX, DOC або інших файлів, які підтримуються MS Word, ви будете переглядати різні дочірні вузли документа та обробляти кожен відповідно до ваших вимог.
Кроки для читання файлу Word у Java
- Встановіть Aspose.Words for Java за допомогою репозиторію Maven, щоб прочитати файл DOCX
- Завантажте вихідний файл DOCX в об’єкт класу Document для читання в Java
- Перегляньте всі вузли типу Paragraph у документі
- Перетворіть текст кожного абзацу на рядок і відобразіть його на консолі
- Перейдіть по всіх вузлах типу Run у документі
- Перетворіть кожен вузол на тип Run і отримайте доступ до назви шрифту, розміру та тексту Run
- Відображати текст кожного запуску на консолі
У цих кроках описано як читати файл Word у Java, надавши посилання на сторінку конфігурації, а потім вказуючи, як завантажити вихідний документ Word. Після завантаження файлу Word його об’єктна модель документа (DOM), тобто логічна структура, також завантажується та може аналізуватися різними способами. Ці кроки допомагають підготувати дві основні колекції, тобто «Абзаци» та «Руни», для доступу до різних частин завантаженого документа Word.
Код для читання файлу DOCX на Java
package word_articles; | |
import com.aspose.words.Document; | |
import com.aspose.words.Font; | |
import com.aspose.words.License; | |
import com.aspose.words.NodeType; | |
import com.aspose.words.Paragraph; | |
import com.aspose.words.Run; | |
import com.aspose.words.SaveFormat; | |
public class ReadWordDocumentInJava { | |
public static void main(String[] args) throws Exception {// Main function to read Word file in Java | |
// Create a license object to avoid limitations of the trial version | |
// while reading the Word file | |
License licWordToPdf = new License(); | |
licWordToPdf.setLicense("Aspose.Words.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true)) | |
{ | |
Paragraph para = (Paragraph)obj; | |
System.out.println(para.toString(SaveFormat.TEXT)); | |
} | |
// Read all the Runs in the document and display style and text | |
for (Object obj : doc.getChildNodes(NodeType.RUN, true)) | |
{ | |
Run run = (Run)obj; | |
Font font = run.getFont(); | |
System.out.println(font.getName() + "," + font.getSize()); | |
System.out.println(run.getText()); | |
} | |
System.out.println("Done"); | |
} | |
} |
Цей код Java для читання документа Word демонструє розбір DOM за допомогою різних фільтрів, наприклад, спочатку ми отримуємо всі вузли абзаців. Клас Paragraph надає функцію toString(), яка витягує текст із усього абзацу, включаючи таблиці тощо, і зберігає його в рядковій змінній. Подібним чином, коли ми аналізуємо документ, щоб отримати всі цикли, він розділяє вміст на основі його стилю, шрифту, типу вузла тощо та ділить один абзац на кілька сегментів на основі стилю шрифту тексту, наприклад жирний текст буде подано окремо, курсив текст окремо тощо.
Цей підручник допоможе нам прочитати файл DOCX, однак, якщо ви бажаєте перетворення якогось типу Word у PDF, зверніться до статті на як конвертувати Word у PDF на Java.