Hoe een Word-document in Java te lezen

Deze korte tutorial geeft informatie over hoe een Word-document in Java te lezen door een gedetailleerde stapsgewijze procedure en een uitvoerbare Java-code te bieden die het voorbeelddocument op verschillende manieren leest. Het introduceert de noodzakelijke klassen die worden gebruikt om een Word-bestand te lezen en toegang te krijgen tot de verschillende segmenten. Terwijl u Word-document leest in Java-code zoals DOCX, DOC of andere door MS Word ondersteunde bestanden, doorloopt u verschillende onderliggende knooppunten van het document en verwerkt u elk volgens uw vereisten.

Stappen om Word-bestand in Java te lezen

  1. Installeer Aspose.Words for Java met behulp van de Maven-repository om het DOCX-bestand te lezen
  2. Laad het DOCX-bronbestand in het Document klasseobject om in Java te lezen
  3. Doorloop alle Paragraph type knooppunten in het document
  4. Converteer elke alineatekst naar een tekenreeks en geef deze weer op de console
  5. Doorloop alle knooppunten van het type Run in het document
  6. Converteer elk knooppunt naar Run-type en krijg toegang tot de lettertypenaam, -grootte en tekst van de Run
  7. Toon elke run-tekst op de console

Deze stappen beschrijven hoe u een Word-bestand in Java kunt lezen door een link naar de configuratiepagina te delen en vervolgens te begeleiden bij het laden van het bron-Word-document. Zodra het Word-bestand is geladen, wordt het documentobjectmodel (DOM), dwz de logische structuur, ook geladen en kan op verschillende manieren worden geparseerd. Deze stappen helpen bij het voorbereiden van twee hoofdverzamelingen, namelijk alinea’s en uitvoeringen om toegang te krijgen tot verschillende delen van het geladen Word-document.

Code om DOCX-bestand in Java te lezen

Deze Java-code om Word-document te lezen demonstreert het ontleden van DOM door verschillende filters te gebruiken, bijvoorbeeld in de eerste plaats halen we alle paragraafknooppunten op. De klasse Alinea biedt de functie toString() die tekst extraheert uit de hele alinea, inclusief tabellen, enz. en deze opslaat in een tekenreeksvariabele. Evenzo, wanneer we het document ontleden om alle Runs op te halen, scheidt het de inhoud op basis van hun stijl, lettertype, knooppunttype enz. tekst afzonderlijk enzovoort.

Deze tutorial heeft ons geholpen om een DOCX-bestand te lezen, maar als je een soort conversie zoals Word naar PDF wilt, raadpleeg dan het artikel op hoe Word naar PDF in Java te converteren.

 Nederlands