Kaip skaityti Word dokumentą Java

Šioje trumpoje pamokoje pateikiama informacija apie tai, kaip skaityti Word dokumentą Java, pateikiant išsamią nuoseklią procedūrą ir paleidžiamą Java kodą, nuskaitantį dokumento pavyzdį įvairiais būdais. Jame pristatomos būtinos klasės, kurios naudojamos skaityti Word failą ir pasiekti skirtingus jo segmentus. Skaitydami Word dokumentą Java kodu, pvz., DOCX, DOC ar kitus MS Word palaikomus failus, kartosite skirtingus antrinius dokumento mazgus ir apdorosite kiekvieną pagal savo reikalavimus.

Word failo skaitymo Java veiksmai

  1. Įdiekite Aspose.Words for Java naudodami Maven saugyklą, kad skaitytumėte DOCX failą
  2. Įkelkite šaltinio DOCX failą į Document klasės objektą, kad galėtumėte skaityti Java
  3. Pakartokite visus Paragraph tipo mazgus dokumente
  4. Konvertuokite kiekvieną pastraipos tekstą į eilutę ir parodykite ją konsolėje
  5. Pakartokite visus dokumento vykdymo tipo mazgus
  6. Konvertuokite kiekvieną mazgą į Vykdymo tipą ir pasiekite šrifto pavadinimą, dydį ir Vykdymo tekstą
  7. Rodyti kiekvieną paleidimo tekstą konsolėje

Šiuose žingsniuose aprašoma, kaip skaityti Word failą Java, bendrinant nuorodą į konfigūracijos puslapį ir nurodoma, kaip įkelti šaltinio Word dokumentą. Įkėlus Word failą, jo dokumento objekto modelis (DOM), ty loginė struktūra, taip pat įkeliamas ir gali būti analizuojamas įvairiais būdais. Šie veiksmai padeda paruošti du pagrindinius rinkinius, kurie yra pastraipos ir vykdymai, kad būtų galima pasiekti skirtingas įkelto Word dokumento dalis.

Kodas, skirtas skaityti DOCX failą Java

Šis Java kodas, skirtas skaityti Word dokumentą parodo DOM analizavimą naudojant skirtingus filtrus, pvz., pirmiausia gauname visus pastraipos mazgus. Pastraipos klasė suteikia funkciją toString(), kuri ištraukia tekstą iš visos pastraipos, įskaitant lenteles ir kt., ir išsaugo jį eilutės kintamajame. Panašiai, kai analizuojame dokumentą, kad gautume visus paleidimus, jis atskiria turinį pagal stilių, šriftą, mazgo tipą ir pan. ir padalija vieną pastraipą į kelis segmentus pagal teksto šrifto stilių, pvz., paryškintas tekstas bus pateiktas atskirai, kursyvas. tekstas atskirai ir pan.

Ši instrukcija padėjo mums perskaityti DOCX failą, tačiau jei norite, pavyzdžiui, Word konvertuoti į PDF, žr. straipsnį apie Kaip konvertuoti Word į PDF Java.

 Latviski