Ovaj kratki vodič predstavlja informacije o kako čitati Wordov dokument u Javi pružajući detaljnu proceduru korak po korak i Java kod koji se može izvoditi i čita ogledni dokument na različite načine. Predstavlja potrebne klase koje se koriste za čitanje Word datoteke i pristup njezinim različitim segmentima. Dok čitate Wordov dokument u Java kodu kao DOCX, DOC ili druge datoteke koje podržava MS Word, iterirati ćete kroz različite podređene čvorove dokumenta i obraditi svaki prema svojim zahtjevima.
Koraci za čitanje Word datoteke u Javi
- Instalirajte Aspose.Words for Java pomoću repozitorija Maven za čitanje DOCX datoteke
- Učitajte izvornu DOCX datoteku u objekt klase Document za čitanje u Javi
- Iterirajte kroz sve čvorove tipa Paragraph u dokumentu
- Pretvorite svaki tekst odlomka u niz i prikažite ga na konzoli
- Iterirajte kroz sve čvorove vrste Run u dokumentu
- Pretvorite svaki čvor u vrstu Run i pristupite nazivu fonta, veličini i tekstu Run
- Prikaz teksta svakog pokretanja na konzoli
Ovi koraci opisuju kako čitati Word datoteku u Javi dijeljenjem veze na konfiguracijsku stranicu, a zatim navođenjem za učitavanje izvornog Word dokumenta. Nakon što se Word datoteka učita, njen objektni model dokumenta (DOM), tj. logička struktura također se učitava i može se analizirati na različite načine. Ovi koraci pomažu u pripremi dviju glavnih kolekcija, a to su Paragraphs i Runs, za pristup različitim dijelovima učitanog Word dokumenta.
Kod za čitanje DOCX datoteke u Javi
Ovaj Java kod za čitanje Word dokumenta pokazuje raščlanjivanje DOM-a korištenjem različitih filtara, npr. na prvom mjestu dohvaćamo sve čvorove odlomaka. Klasa Paragraph pruža funkciju toString() koja izvlači tekst iz cijelog odlomka uključujući tablice itd. i sprema ga u varijablu niza. Slično tome, kada analiziramo dokument da dohvatimo sve runove, on odvaja sadržaj na temelju njihovog stila, fonta, tipa čvora itd. i dijeli jedan odlomak na više segmenata na temelju stila fonta teksta kao što je podebljani tekst koji će biti dostavljen zasebno, kurziv tekst odvojeno i tako dalje.
Ovaj vodič nas je vodio da čitamo DOCX datoteku, međutim, ako želite neku vrstu pretvorbe poput Worda u PDF, pogledajte članak na kako pretvoriti Word u PDF u Javi.