Comment lire un document Word en Java

Ce bref didacticiel présente des informations sur comment lire un document Word en Java en fournissant une procédure détaillée étape par étape et un code Java exécutable lisant l’exemple de document de différentes manières. Il présente les classes nécessaires qui sont utilisées pour lire un fichier Word et accéder à ses différents segments. Lors de la ** lecture d’un document Word en code Java ** comme DOCX, DOC ou d’autres fichiers pris en charge par MS Word, vous parcourrez différents nœuds enfants du document et traiterez chacun selon vos besoins.

Étapes pour lire un fichier Word en Java

  1. Installez Aspose.Words for Java à l’aide du référentiel Maven pour lire le fichier DOCX
  2. Chargez le fichier DOCX source dans l’objet de classe Document pour le lire en Java
  3. Itérer sur tous les nœuds de type Paragraph dans le document
  4. Convertissez chaque texte de paragraphe en chaîne et affichez-le sur la console
  5. Itérer à travers tous les nœuds de type Run dans le document
  6. Convertissez chaque nœud en type Run et accédez au nom, à la taille et au texte de la police du Run
  7. Afficher chaque texte d’exécution sur la console

Ces étapes décrivent * comment lire un fichier Word en Java * en partageant le lien vers la page de configuration, puis en guidant pour charger le document Word source. Une fois le fichier Word chargé, son modèle d’objet de document (DOM), c’est-à-dire la structure logique, est également chargé et peut être analysé de différentes manières. Ces étapes aident à préparer deux collections principales qui sont Paragraphs et Runs pour accéder à différentes parties du document Word chargé.

Code pour lire le fichier DOCX en Java

Ce * code Java pour lire le document Word * démontre l’analyse de DOM en utilisant différents filtres, par exemple, en premier lieu, nous récupérons tous les nœuds de paragraphe. La classe Paragraph fournit la fonction toString() qui extrait le texte du paragraphe entier, y compris les tableaux, etc., et l’enregistre dans une variable de chaîne. De même, lorsque nous analysons le document pour récupérer toutes les exécutions, il sépare le contenu en fonction de son style, de sa police, de son type de nœud, etc. et divise un seul paragraphe en plusieurs segments en fonction du style de police du texte, comme le texte en gras sera fourni séparément, italique texte séparément et ainsi de suite.

Ce tutoriel nous a guidés pour lire un fichier DOCX cependant, si vous voulez une sorte de conversion comme Word en PDF, reportez-vous à l’article sur comment convertir Word en PDF en Java.

 Français