Kako čitati Wordov dokument u Javi

Ovaj kratki vodič predstavlja informacije o kako čitati Wordov dokument u Javi pružajući detaljnu proceduru korak po korak i Java kod koji se može izvoditi i čita ogledni dokument na različite načine. Predstavlja potrebne klase koje se koriste za čitanje Word datoteke i pristup njezinim različitim segmentima. Dok čitate Wordov dokument u Java kodu kao DOCX, DOC ili druge datoteke koje podržava MS Word, iterirati ćete kroz različite podređene čvorove dokumenta i obraditi svaki prema svojim zahtjevima.

Koraci za čitanje Word datoteke u Javi

  1. Instalirajte Aspose.Words for Java pomoću repozitorija Maven za čitanje DOCX datoteke
  2. Učitajte izvornu DOCX datoteku u objekt klase Document za čitanje u Javi
  3. Iterirajte kroz sve čvorove tipa Paragraph u dokumentu
  4. Pretvorite svaki tekst odlomka u niz i prikažite ga na konzoli
  5. Iterirajte kroz sve čvorove vrste Run u dokumentu
  6. Pretvorite svaki čvor u vrstu Run i pristupite nazivu fonta, veličini i tekstu Run
  7. Prikaz teksta svakog pokretanja na konzoli

Ovi koraci opisuju kako čitati Word datoteku u Javi dijeljenjem veze na konfiguracijsku stranicu, a zatim navođenjem za učitavanje izvornog Word dokumenta. Nakon što se Word datoteka učita, njen objektni model dokumenta (DOM), tj. logička struktura također se učitava i može se analizirati na različite načine. Ovi koraci pomažu u pripremi dviju glavnih kolekcija, a to su Paragraphs i Runs, za pristup različitim dijelovima učitanog Word dokumenta.

Kod za čitanje DOCX datoteke u Javi

package word_articles;
import com.aspose.words.Document;
import com.aspose.words.Font;
import com.aspose.words.License;
import com.aspose.words.NodeType;
import com.aspose.words.Paragraph;
import com.aspose.words.Run;
import com.aspose.words.SaveFormat;
public class ReadWordDocumentInJava {
public static void main(String[] args) throws Exception {// Main function to read Word file in Java
// Create a license object to avoid limitations of the trial version
// while reading the Word file
License licWordToPdf = new License();
licWordToPdf.setLicense("Aspose.Words.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true))
{
Paragraph para = (Paragraph)obj;
System.out.println(para.toString(SaveFormat.TEXT));
}
// Read all the Runs in the document and display style and text
for (Object obj : doc.getChildNodes(NodeType.RUN, true))
{
Run run = (Run)obj;
Font font = run.getFont();
System.out.println(font.getName() + "," + font.getSize());
System.out.println(run.getText());
}
System.out.println("Done");
}
}

Ovaj Java kod za čitanje Word dokumenta pokazuje raščlanjivanje DOM-a korištenjem različitih filtara, npr. na prvom mjestu dohvaćamo sve čvorove odlomaka. Klasa Paragraph pruža funkciju toString() koja izvlači tekst iz cijelog odlomka uključujući tablice itd. i sprema ga u varijablu niza. Slično tome, kada analiziramo dokument da dohvatimo sve runove, on odvaja sadržaj na temelju njihovog stila, fonta, tipa čvora itd. i dijeli jedan odlomak na više segmenata na temelju stila fonta teksta kao što je podebljani tekst koji će biti dostavljen zasebno, kurziv tekst odvojeno i tako dalje.

Ovaj vodič nas je vodio da čitamo DOCX datoteku, međutim, ako želite neku vrstu pretvorbe poput Worda u PDF, pogledajte članak na kako pretvoriti Word u PDF u Javi.

 Hrvatski