Extrahieren Sie Text aus einem Word-Dokument in Java

Man kann Text aus einem Word-Dokument in Java extrahieren**, indem man sich auf diesen einfachen Artikel bezieht. Es enthält die erforderlichen Schritte zum Einrichten der Entwicklungsumgebung, einen schrittweisen Programmablauf und einen laufenden Beispielcode zum Konvertieren von DOCX in TXT in Java. Die entwickelte Anwendung kann in jeder Java-unterstützten Umgebung unter Linux, MS Windows oder macOS verwendet werden.

Schritte zum Entwickeln eines Word-zu-TXT-Konverters mit Java

  1. Konfigurieren Sie die Umgebung, indem Sie Aspose.Words for Java vom Repository-Manager installieren, um eine DOCX-Datei mit Java in eine TXT-Datei zu konvertieren
  2. Öffnen Sie das Word-Quelldokument, indem Sie eine Instanz der Klasse Document für die Konvertierung von Word in TXT-Dateien erstellen
  3. Erstellen Sie ein TxtSaveOptions-Klassenobjekt, um die erforderlichen Eigenschaften der TXT-Ausgabedatei festzulegen
  4. Speichern Sie die geladene DOCX-Datei mit der Speichermethode als TXT-Datei auf der Festplatte

Diese präzisen Schritte in Java extrahieren Text aus Word-Dokument mithilfe einer einfachen API-Schnittstelle. Zuerst laden wir die DOCX-Quelldatei mithilfe einer Instanz der Document-Klasse von der Festplatte. Anschließend legen wir mithilfe einer Instanz der TxtSaveOptions-Klasse die gewünschten Exportoptionen für die TXT-Ausgabedatei fest. Abschließend wird das geöffnete Word-Dokument mit der Speichermethode als TXT-Datei auf der Festplatte gespeichert.

Code zum Konvertieren von DOCX in TXT in Java

Um von der Festplatte auf das Quell-DOCX zuzugreifen und Text aus einem Word-Dokument zu extrahieren, wurde im oben genannten Codebeispiel eine Java-basierte API verwendet. Man kann eine TXT-Datei auf der Festplatte speichern, ohne auf die optionale Klasseninstanz TxtSaveOptions angewiesen zu sein. Wenn Sie jedoch die gewünschte TXT-Datei anpassen möchten, können Sie verschiedene Setter-Methoden verwenden, die von der TxtSaveOptions-Klasse bereitgestellt werden, darunter setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() und setPrettyFormat(), um nur einige zu nennen.

Dieser Artikel hat uns aufgeklärt, einen Word-zu-TXT-Konverter mit Java zu entwickeln. Wenn Sie daran interessiert sind, Word-Dokumente zu vergleichen, lesen Sie den Artikel zu Vergleichen Sie Word-Dokumente mit Java.

 Deutsch