Extrahieren Sie Text aus einem Word-Dokument in C#

Mit diesem kurzen Tutorial können Sie Text aus einem Word-Dokument in C# extrahieren**. Es umfasst Schritte zum Einrichten der Entwicklungsumgebung, einen schrittweisen Arbeitsablauf und einen aktuellen funktionierenden Beispielcode zum Konvertieren von DOCX in TXT in C#. Die entwickelte Anwendung kann in jede Anwendung integriert werden, die das .NET-Framework unter Linux, MS Windows oder macOS unterstützt.

Schritte zum Extrahieren von Text aus einem Word-Dokument in C#

  1. Richten Sie das System ein, indem Sie Aspose.Words for .NET installieren, um eine DOCX-Datei mit C# in eine TXT-Datei zu konvertieren.
  2. Greifen Sie mithilfe einer Instanz der Klasse Document auf das Word-Quelldokument zu
  3. Instanziieren Sie die Klasseninstanz TxtSaveOptions und legen Sie die erforderlichen Eigenschaften fest
  4. Speichern Sie die Word-Datei mit der Save-Methode als TXT auf der Festplatte

Diese prägnanten Schritte in C# extrahieren Text aus Word-Dokument mithilfe einiger API-Aufrufe. Laden Sie zunächst die Word-Quelldokumentdatei von der Festplatte. Anschließend legen Sie die Exportoptionen für die TXT-Ausgabedatei mithilfe der Klasseninstanz TxtSaveOptions fest. Abschließend wird das geladene DOCX mit der Save-Methode als TXT-Datei auf der Festplatte gespeichert.

Code zum Konvertieren von DOCX in TXT in C#

Um Text aus einem Word-Dokument zu extrahieren, wurde in diesem Codeausschnitt eine auf C# basierende API effektiv verwendet. Sie können das Word-Dokument im TXT-Format speichern, ohne die optionale Klasseninstanz TxtSaveOptions zu verwenden. Wenn Sie die TXT-Ausgabedatei jedoch weiter anpassen möchten, können Sie verschiedene Eigenschaften verwenden, die von der TxtSaveOptions-Klasse bereitgestellt werden, einschließlich der Einstellungen Encoding, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak und PrettyFormat, um nur einige zu nennen.

In diesem Artikel wurden die Informationen zum Entwickeln eines Word-zu-TXT-Konverters mit C# erläutert. Wenn Sie die PDF-Dokumente vergleichen möchten, lesen Sie den Artikel zu Vergleichen Sie PDF-Dokumente mit C#.

 Deutsch