Come leggere un documento di Word in Java

Questo breve tutorial presenta informazioni su come leggere un documento Word in Java fornendo una procedura dettagliata passo passo e un codice Java eseguibile che legge il documento di esempio in diversi modi. Introduce le classi necessarie che vengono utilizzate per leggere un file di Word e accedere ai suoi diversi segmenti. Durante la lettura di documenti Word in codice Java come DOCX, DOC o altri file supportati da MS Word, eseguirai un’iterazione attraverso diversi nodi figlio del documento ed elaborerai ciascuno secondo le tue esigenze.

Passaggi per leggere il file di Word in Java

  1. Installa Aspose.Words for Java utilizzando il repository Maven per leggere il file DOCX
  2. Carica il file DOCX di origine nell’oggetto classe Document per la lettura in Java
  3. Scorri tutti i nodi di tipo Paragraph nel documento
  4. Converti ogni testo di paragrafo in una stringa e visualizzalo sulla console
  5. Iterare attraverso tutti i nodi di tipo Esegui nel documento
  6. Converti ogni nodo in tipo Run e accedi al nome del carattere, alla dimensione e al testo del Run
  7. Visualizza ogni testo della corsa sulla console

Questi passaggi descrivono come leggere il file Word in Java condividendo il collegamento alla pagina di configurazione e quindi guidando per caricare il documento Word di origine. Una volta caricato il file di Word, viene caricato anche il suo modello a oggetti del documento (DOM), ovvero la struttura logica, che può essere analizzata in diversi modi. Questi passaggi aiutano a preparare due raccolte principali che sono Paragrafi e Sequenze per accedere a diverse parti del documento di Word caricato.

Codice per leggere il file DOCX in Java

Questo codice Java per leggere il documento Word mostra l’analisi del DOM usando diversi filtri, ad esempio in primo luogo prendiamo tutti i nodi di paragrafo. La classe Paragraph fornisce la funzione toString() che estrae il testo dall’intero paragrafo, incluse le tabelle, ecc. e lo salva in una variabile stringa. Allo stesso modo, quando analizziamo il documento per recuperare tutte le esecuzioni, separiamo i contenuti in base al loro stile, carattere, tipo di nodo ecc. e dividiamo un singolo paragrafo in più segmenti in base allo stile del carattere del testo come il testo in grassetto verrà fornito separatamente, corsivo testo separatamente e così via.

Questo tutorial ci ha guidato a leggere un file DOCX, tuttavia, se desideri una sorta di conversione da Word a PDF, fai riferimento all’articolo su come convertire Word in PDF in Java.

 Italiano