Hur man läser Word-dokument i Java

Denna korta handledning presenterar information om hur man läser Word-dokument i Java genom att tillhandahålla en detaljerad steg-för-steg-procedur och en körbar Java-kod som läser exempeldokumentet på olika sätt. Den introducerar de nödvändiga klasserna som används för att läsa en Word-fil och komma åt dess olika segment. Medan du läser Word-dokument i Java-kod som DOCX, DOC eller andra MS Word-stödda filer, kommer du att iterera genom olika underordnade noder i dokumentet och bearbeta var och en enligt dina krav.

Steg för att läsa Word-fil i Java

  1. Installera Aspose.Words for Java med hjälp av Maven-förvaret för att läsa DOCX-filen
  2. Ladda källfilen DOCX i klassobjektet Document för läsning i Java
  3. Iterera igenom alla noder av typen Paragraph i dokumentet
  4. Konvertera varje stycketext till en sträng och visa den på konsolen
  5. Iterera genom alla körningsnoder i dokumentet
  6. Konvertera varje nod till Kör-typ och få tillgång till teckensnittsnamn, storlek och text för Körningen
  7. Visa varje körningstext på konsolen

Dessa steg beskriver hur man läser Word-fil i Java genom att dela länken till konfigurationssidan och sedan vägleda hur man laddar Word-källdokumentet. När Word-filen är laddad laddas dess dokumentobjektmodell (DOM), dvs den logiska strukturen också in och kan tolkas på olika sätt. Dessa steg hjälper till att förbereda två huvudsamlingar som är Paragraphs och Runs för att komma åt olika delar av det laddade Word-dokumentet.

Kod för att läsa DOCX-fil i Java

Denna Java-kod för att läsa Word-dokument demonstrerar analysen av DOM genom att använda olika filter, t.ex. i första hand hämtar vi alla styckenoder. Klassen Paragraph tillhandahåller funktionen toString() som extraherar text från hela stycket inklusive tabeller etc. och sparar den i en strängvariabel. På liknande sätt, när vi analyserar dokumentet för att hämta alla körningar, separerar det innehåll baserat på deras stil, teckensnitt, nodtyp etc. och delar upp ett enda stycke i flera segment baserat på texttypsnittsstilen, som att fet text kommer att tillhandahållas separat, kursiv. text separat och så vidare.

Denna handledning har väglett oss att läsa en DOCX-fil, men om du vill ha någon form av konvertering som Word till PDF, se artikeln om hur man konverterar Word till PDF i Java.

 Svenska