Ovaj kratki vodič predstavlja informacije o kako čitati Wordov dokument u Javi pružajući detaljnu proceduru korak po korak i Java kod koji se može izvoditi i čita ogledni dokument na različite načine. Predstavlja potrebne klase koje se koriste za čitanje Word datoteke i pristup njezinim različitim segmentima. Dok čitate Wordov dokument u Java kodu kao DOCX, DOC ili druge datoteke koje podržava MS Word, iterirati ćete kroz različite podređene čvorove dokumenta i obraditi svaki prema svojim zahtjevima.
Koraci za čitanje Word datoteke u Javi
- Instalirajte Aspose.Words for Java pomoću repozitorija Maven za čitanje DOCX datoteke
- Učitajte izvornu DOCX datoteku u objekt klase Document za čitanje u Javi
- Iterirajte kroz sve čvorove tipa Paragraph u dokumentu
- Pretvorite svaki tekst odlomka u niz i prikažite ga na konzoli
- Iterirajte kroz sve čvorove vrste Run u dokumentu
- Pretvorite svaki čvor u vrstu Run i pristupite nazivu fonta, veličini i tekstu Run
- Prikaz teksta svakog pokretanja na konzoli
Ovi koraci opisuju kako čitati Word datoteku u Javi dijeljenjem veze na konfiguracijsku stranicu, a zatim navođenjem za učitavanje izvornog Word dokumenta. Nakon što se Word datoteka učita, njen objektni model dokumenta (DOM), tj. logička struktura također se učitava i može se analizirati na različite načine. Ovi koraci pomažu u pripremi dviju glavnih kolekcija, a to su Paragraphs i Runs, za pristup različitim dijelovima učitanog Word dokumenta.
Kod za čitanje DOCX datoteke u Javi
package word_articles; | |
import com.aspose.words.Document; | |
import com.aspose.words.Font; | |
import com.aspose.words.License; | |
import com.aspose.words.NodeType; | |
import com.aspose.words.Paragraph; | |
import com.aspose.words.Run; | |
import com.aspose.words.SaveFormat; | |
public class ReadWordDocumentInJava { | |
public static void main(String[] args) throws Exception {// Main function to read Word file in Java | |
// Create a license object to avoid limitations of the trial version | |
// while reading the Word file | |
License licWordToPdf = new License(); | |
licWordToPdf.setLicense("Aspose.Words.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true)) | |
{ | |
Paragraph para = (Paragraph)obj; | |
System.out.println(para.toString(SaveFormat.TEXT)); | |
} | |
// Read all the Runs in the document and display style and text | |
for (Object obj : doc.getChildNodes(NodeType.RUN, true)) | |
{ | |
Run run = (Run)obj; | |
Font font = run.getFont(); | |
System.out.println(font.getName() + "," + font.getSize()); | |
System.out.println(run.getText()); | |
} | |
System.out.println("Done"); | |
} | |
} |
Ovaj Java kod za čitanje Word dokumenta pokazuje raščlanjivanje DOM-a korištenjem različitih filtara, npr. na prvom mjestu dohvaćamo sve čvorove odlomaka. Klasa Paragraph pruža funkciju toString() koja izvlači tekst iz cijelog odlomka uključujući tablice itd. i sprema ga u varijablu niza. Slično tome, kada analiziramo dokument da dohvatimo sve runove, on odvaja sadržaj na temelju njihovog stila, fonta, tipa čvora itd. i dijeli jedan odlomak na više segmenata na temelju stila fonta teksta kao što je podebljani tekst koji će biti dostavljen zasebno, kurziv tekst odvojeno i tako dalje.
Ovaj vodič nas je vodio da čitamo DOCX datoteku, međutim, ako želite neku vrstu pretvorbe poput Worda u PDF, pogledajte članak na kako pretvoriti Word u PDF u Javi.