Как да четем Word документ в Java

Този кратък урок представя информация за как да четете документ на Word в Java, като предоставя подробна процедура стъпка по стъпка и изпълняващ Java код, който чете примерния документ по различни начини. Той въвежда необходимите класове, които се използват за четене на Word файл и достъп до различните му сегменти. Докато четете документ на Word в код на Java като DOCX, DOC или други файлове, поддържани от MS Word, вие ще преминавате през различни дъщерни възли на документа и ще обработвате всеки според вашите изисквания.

Стъпки за четене на Word файл в Java

  1. Инсталирайте Aspose.Words for Java, като използвате хранилището на Maven, за да прочетете DOCX файла
  2. Заредете изходния DOCX файл в обекта на клас Document за четене в Java
  3. Преминете през всички възли от тип Paragraph в документа
  4. Конвертирайте текста на всеки параграф в низ и го покажете на конзолата
  5. Преминете през всички възли от тип Run в документа
  6. Преобразувайте всеки възел в тип Run и достъп до името на шрифта, размера и текста на Run
  7. Показвайте всеки текст на изпълнение на конзолата

Тези стъпки описват как да четете Word файл в Java чрез споделяне на връзка към конфигурационната страница и след това насочване за зареждане на изходния Word документ. След като файлът на Word се зареди, неговият обектен модел на документа (DOM), т.е. логическата структура, също се зарежда и може да бъде анализирана по различни начини. Тези стъпки помагат при подготовката на две основни колекции, които са параграфи и изпълнения, за достъп до различни части от заредения документ на Word.

Код за четене на DOCX файл в Java

Този Java код за четене на документ на Word демонстрира анализирането на DOM чрез използване на различни филтри, например на първо място извличаме всички възли на абзаца. Класът Paragraph осигурява функцията toString(), която извлича текст от целия абзац, включително таблици и т.н., и го записва в низова променлива. По същия начин, когато анализираме документа, за да извлечем всички изпълнения, той разделя съдържанието въз основа на неговия стил, шрифт, тип възел и т.н. и разделя един абзац на множество сегменти въз основа на стила на шрифта на текста, като удебелен текст ще бъде предоставен отделно, курсив текст отделно и така нататък.

Този урок ни напътства да четем DOCX файл, но ако искате някакъв вид преобразуване като Word в PDF, вижте статията на как да конвертирате Word в PDF в Java.

 Български