Extraire le texte d'un document Word en Java

On peut Extraire Text d’un document Word en Java en se référant à cet article simple. Il comprend les étapes requises pour configurer l’environnement de développement, le flux de travail du programme par étapes et un exemple de code en cours d’exécution pour convertir DOCX en TXT en Java. L’application développée peut être utilisée dans n’importe quel environnement pris en charge par Java sous Linux, MS Windows ou macOS.

Étapes pour développer un convertisseur Word en TXT à l’aide de Java

  1. Configurez l’environnement en installant Aspose.Words for Java à partir du gestionnaire de référentiel pour convertir un fichier DOCX en fichier TXT à l’aide de Java
  2. Ouvrez le document Word source en créant une instance de la classe Document pour la conversion de fichier Word en TXT
  3. Créez un objet de classe TxtSaveOptions pour définir les propriétés du fichier TXT de sortie requis
  4. Enregistrez le fichier DOCX chargé en tant que fichier TXT sur le disque en utilisant la méthode de sauvegarde

Ces étapes précises en Java extraient le texte d’un document Word à l’aide d’une interface API simple. Tout d’abord, nous allons charger le fichier DOCX source à partir du disque à l’aide d’une instance de la classe Document, puis définir les options d’exportation du fichier TXT de sortie souhaitées à l’aide d’une instance de la classe TxtSaveOptions. Enfin, le document Word ouvert est enregistré sous forme de fichier TXT sur le disque à l’aide de la méthode de sauvegarde.

Code pour convertir DOCX en TXT en Java

Pour accéder au DOCX source à partir du disque et extraire le texte d’un document Word, une API basée sur Java a été utilisée dans l’exemple de code susmentionné. On peut enregistrer un fichier TXT sur le disque sans compter sur l’instance facultative de la classe TxtSaveOptions. Cependant, si vous souhaitez personnaliser le fichier TXT souhaité, vous pouvez utiliser différentes méthodes de définition exposées par la classe TxtSaveOptions, notamment setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() et setPrettyFormat() pour n’en nommer que quelques-unes.

Cet article nous a éclairé pour développer un convertisseur Word vers TXT utilisant Java. Si vous souhaitez comparer des documents Word, reportez-vous à l’article sur Comparez des documents Word à l’aide de Java.

 Français