Estrai testo da un documento Word in Java

È possibile estrarre Text dal documento Word in Java facendo riferimento a questo semplice articolo. Include i passaggi necessari per configurare l’ambiente di sviluppo, il flusso di lavoro graduale del programma e un codice di esempio in esecuzione per convertire DOCX in TXT in Java. L’applicazione sviluppata può essere utilizzata in qualsiasi ambiente supportato da Java in Linux, MS Windows o macOS.

Passaggi per sviluppare un convertitore da Word a TXT utilizzando Java

  1. Configura l’ambiente installando Aspose.Words for Java dal gestore del repository per convertire un file DOCX in un file TXT utilizzando Java
  2. Apri il documento Word di origine creando un’istanza della classe Document per la conversione di file Word in TXT
  3. Crea un oggetto di classe TxtSaveOptions per impostare le proprietà del file TXT di output richieste
  4. Salvare il file DOCX caricato come file TXT sul disco utilizzando il metodo di salvataggio

Questi passaggi precisi in Java estraggono testo da documenti Word utilizzando una semplice interfaccia API. Innanzitutto, caricheremo il file DOCX di origine dal disco utilizzando un’istanza della classe Document, quindi imposteremo le opzioni di esportazione del file TXT di output desiderate utilizzando un’istanza della classe TxtSaveOptions. Infine, il documento Word aperto viene salvato come file TXT sul disco utilizzando il metodo di salvataggio.

Codice per convertire DOCX in TXT in Java

Per accedere al DOCX di origine dal disco ed estrarre il testo dal documento Word, è stata utilizzata l’API basata su Java nell’esempio di codice sopra menzionato. È possibile salvare un file TXT sul disco senza fare affidamento sull’istanza opzionale della classe TxtSaveOptions. Tuttavia, se desideri personalizzare il file TXT desiderato, puoi utilizzare diversi metodi setter esposti dalla classe TxtSaveOptions inclusi setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() e setPrettyFormat() per citarne alcuni.

Questo articolo ci ha aiutato a sviluppare un convertitore da Word a TXT utilizzando Java. Se sei interessato a confrontare documenti Word, fai riferimento all’articolo su Confronta documenti Word utilizzando Java.

 Italiano