On peut Extraire Text d’un document Word en Java en se référant à cet article simple. Il comprend les étapes requises pour configurer l’environnement de développement, le flux de travail du programme par étapes et un exemple de code en cours d’exécution pour convertir DOCX en TXT en Java. L’application développée peut être utilisée dans n’importe quel environnement pris en charge par Java sous Linux, MS Windows ou macOS.
Étapes pour développer un convertisseur Word en TXT à l’aide de Java
- Configurez l’environnement en installant Aspose.Words for Java à partir du gestionnaire de référentiel pour convertir un fichier DOCX en fichier TXT à l’aide de Java
- Ouvrez le document Word source en créant une instance de la classe Document pour la conversion de fichier Word en TXT
- Créez un objet de classe TxtSaveOptions pour définir les propriétés du fichier TXT de sortie requis
- Enregistrez le fichier DOCX chargé en tant que fichier TXT sur le disque en utilisant la méthode de sauvegarde
Ces étapes précises en Java extraient le texte d’un document Word à l’aide d’une interface API simple. Tout d’abord, nous allons charger le fichier DOCX source à partir du disque à l’aide d’une instance de la classe Document, puis définir les options d’exportation du fichier TXT de sortie souhaitées à l’aide d’une instance de la classe TxtSaveOptions. Enfin, le document Word ouvert est enregistré sous forme de fichier TXT sur le disque à l’aide de la méthode de sauvegarde.
Code pour convertir DOCX en TXT en Java
import com.aspose.words.Document; | |
import com.aspose.words.License; | |
import com.aspose.words.SaveFormat; | |
import com.aspose.words.TxtSaveOptions; | |
public class HowToConvertWordToText { | |
public static void main(String[] args) throws Exception { //main function for How To Convert Word to Text in Java | |
String path= "/Users/Documents/KnowledgeBase/TestData/"; | |
// Applying product license extract text from DOCX | |
License WordToTextLic = new License(); | |
WordToTextLic.setLicense(path + "Conholdate.Total.Product.Family.lic"); | |
// Load the source DOCX for text conversion | |
Document sourceWordDoc = new Document(path+"Test1.docx"); | |
// Optional Text saving options | |
TxtSaveOptions txtOpts = new TxtSaveOptions(); | |
txtOpts.setMaxCharactersPerLine(100); | |
txtOpts.setSaveFormat(SaveFormat.TEXT); | |
txtOpts.setPrettyFormat(true); | |
// Convert Word to Text | |
sourceWordDoc.save(path + "ExtractedText.txt", txtOpts); | |
System.out.println("Done"); | |
} | |
} |
Pour accéder au DOCX source à partir du disque et extraire le texte d’un document Word, une API basée sur Java a été utilisée dans l’exemple de code susmentionné. On peut enregistrer un fichier TXT sur le disque sans compter sur l’instance facultative de la classe TxtSaveOptions. Cependant, si vous souhaitez personnaliser le fichier TXT souhaité, vous pouvez utiliser différentes méthodes de définition exposées par la classe TxtSaveOptions, notamment setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() et setPrettyFormat() pour n’en nommer que quelques-unes.
Cet article nous a éclairé pour développer un convertisseur Word vers TXT utilisant Java. Si vous souhaitez comparer des documents Word, reportez-vous à l’article sur Comparez des documents Word à l’aide de Java.