Jak číst dokument Word v Javě

Tento stručný tutoriál obsahuje informace o tom, jak číst dokument Word v Javě tím, že poskytuje podrobný postup krok za krokem a spustitelný kód Java, který čte ukázkový dokument různými způsoby. Představuje nezbytné třídy, které se používají ke čtení souboru aplikace Word a přístupu k jeho různým segmentům. Při čtení dokumentu aplikace Word v kódu Java, jako je DOCX, DOC nebo jiné soubory podporované MS Word, budete procházet různými podřízenými uzly dokumentu a zpracovávat každý z nich podle svých požadavků.

Kroky ke čtení souboru Word v Javě

  1. Nainstalujte Aspose.Words for Java pomocí úložiště Maven, abyste mohli číst soubor DOCX
  2. Načtěte zdrojový soubor DOCX do objektu třídy Document pro čtení v Javě
  3. Projděte všechny uzly typu Paragraph v dokumentu
  4. Převeďte každý odstavcový text na řetězec a zobrazte jej na konzole
  5. Iterujte všechny uzly typu Run v dokumentu
  6. Převeďte každý uzel na typ Run a získejte přístup k názvu písma, velikosti a textu Run
  7. Zobrazte text každého spuštění na konzole

Tyto kroky popisují jak číst soubor aplikace Word v jazyce Java sdílením odkazu na konfigurační stránku a následným naváděním k načtení zdrojového dokumentu aplikace Word. Jakmile je soubor Word načten, načte se také jeho objektový model dokumentu (DOM), tj. logická struktura, kterou lze analyzovat různými způsoby. Tyto kroky pomáhají při přípravě dvou hlavních kolekcí, kterými jsou odstavce a běhy pro přístup k různým částem načteného dokumentu aplikace Word.

Kód pro čtení souboru DOCX v Javě

Tento Java kód pro čtení dokumentu Word demonstruje analýzu DOM pomocí různých filtrů, např. na prvním místě načteme všechny uzly odstavců. Třída Odstavec poskytuje funkci toString(), která extrahuje text z celého odstavce včetně tabulek atd. a uloží jej do řetězcové proměnné. Podobně, když analyzujeme dokument, abychom načetli všechny běhy, oddělí obsah na základě jejich stylu, písma, typu uzlu atd. a rozdělí jeden odstavec na více segmentů na základě stylu písma textu, jako je tučný text bude poskytnut samostatně, kurzíva text samostatně a tak dále.

Tento tutoriál nás navedl ke čtení souboru DOCX, pokud však chcete nějaký druh převodu, jako je Word do PDF, podívejte se na článek na jak převést Word do PDF v Javě.

 Čeština