Questo breve tutorial presenta informazioni su come leggere un documento Word in Java fornendo una procedura dettagliata passo passo e un codice Java eseguibile che legge il documento di esempio in diversi modi. Introduce le classi necessarie che vengono utilizzate per leggere un file di Word e accedere ai suoi diversi segmenti. Durante la lettura di documenti Word in codice Java come DOCX, DOC o altri file supportati da MS Word, eseguirai un’iterazione attraverso diversi nodi figlio del documento ed elaborerai ciascuno secondo le tue esigenze.
Passaggi per leggere il file di Word in Java
- Installa Aspose.Words for Java utilizzando il repository Maven per leggere il file DOCX
- Carica il file DOCX di origine nell’oggetto classe Document per la lettura in Java
- Scorri tutti i nodi di tipo Paragraph nel documento
- Converti ogni testo di paragrafo in una stringa e visualizzalo sulla console
- Iterare attraverso tutti i nodi di tipo Esegui nel documento
- Converti ogni nodo in tipo Run e accedi al nome del carattere, alla dimensione e al testo del Run
- Visualizza ogni testo della corsa sulla console
Questi passaggi descrivono come leggere il file Word in Java condividendo il collegamento alla pagina di configurazione e quindi guidando per caricare il documento Word di origine. Una volta caricato il file di Word, viene caricato anche il suo modello a oggetti del documento (DOM), ovvero la struttura logica, che può essere analizzata in diversi modi. Questi passaggi aiutano a preparare due raccolte principali che sono Paragrafi e Sequenze per accedere a diverse parti del documento di Word caricato.
Codice per leggere il file DOCX in Java
package word_articles; | |
import com.aspose.words.Document; | |
import com.aspose.words.Font; | |
import com.aspose.words.License; | |
import com.aspose.words.NodeType; | |
import com.aspose.words.Paragraph; | |
import com.aspose.words.Run; | |
import com.aspose.words.SaveFormat; | |
public class ReadWordDocumentInJava { | |
public static void main(String[] args) throws Exception {// Main function to read Word file in Java | |
// Create a license object to avoid limitations of the trial version | |
// while reading the Word file | |
License licWordToPdf = new License(); | |
licWordToPdf.setLicense("Aspose.Words.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true)) | |
{ | |
Paragraph para = (Paragraph)obj; | |
System.out.println(para.toString(SaveFormat.TEXT)); | |
} | |
// Read all the Runs in the document and display style and text | |
for (Object obj : doc.getChildNodes(NodeType.RUN, true)) | |
{ | |
Run run = (Run)obj; | |
Font font = run.getFont(); | |
System.out.println(font.getName() + "," + font.getSize()); | |
System.out.println(run.getText()); | |
} | |
System.out.println("Done"); | |
} | |
} |
Questo codice Java per leggere il documento Word mostra l’analisi del DOM usando diversi filtri, ad esempio in primo luogo prendiamo tutti i nodi di paragrafo. La classe Paragraph fornisce la funzione toString() che estrae il testo dall’intero paragrafo, incluse le tabelle, ecc. e lo salva in una variabile stringa. Allo stesso modo, quando analizziamo il documento per recuperare tutte le esecuzioni, separiamo i contenuti in base al loro stile, carattere, tipo di nodo ecc. e dividiamo un singolo paragrafo in più segmenti in base allo stile del carattere del testo come il testo in grassetto verrà fornito separatamente, corsivo testo separatamente e così via.
Questo tutorial ci ha guidato a leggere un file DOCX, tuttavia, se desideri una sorta di conversione da Word a PDF, fai riferimento all’articolo su come convertire Word in PDF in Java.