In diesem kurzen Tutorial lernen wir mithilfe von Details zur Umgebungskonfiguration, einer Liste von Schritten und einem ausführbaren Code, wie man ein Word-Dokument in C# liest. Der Code demonstriert das Lesen von Word-Dateien auf unterschiedliche Weise. Sie erfahren, wie C# ein Word-Dokument liest, indem Sie eine Word-Datei wie DOCX, DOC, RTF oder HTML usw. laden und dann auf ihre verschiedenen Elemente zugreifen, um sie zu verarbeiten oder anzuzeigen.
Schritte zum Lesen von Daten aus Word-Dokumenten in C#
- Konfigurieren Sie die Projektumgebung für die Verwendung von Aspose.Words aus dem NuGet-Paket-Manager
- Laden Sie die DOCX-Eingabedatei in das Klassenobjekt Document
- Rufen Sie alle Knoten vom Typ Paragraph aus dem Dokument ab
- Wandeln Sie jeden Absatz in einen String um und zeigen Sie ihn auf der Konsole an
- Rufen Sie alle Run-Typ-Knoten aus dem Dokument ab
- Konvertieren Sie jedes Run-Element in eine Zeichenfolge und zeigen Sie es zusammen mit dem Namen und der Größe der Schriftart an
Diese Schritte liefern die detaillierten Informationen, die erforderlich sind, um die Umgebung und Aufgaben zu konfigurieren, die beim Schreiben eines Leseprogramms für Word-Dateien ausgeführt werden sollen. Es zeigt, wie C# die DOCX-Datei liest, indem die Quelldatei in die Document-Klasseninstanz geladen und dann auf alle ihre Absätze zugegriffen wird, um den Text anzuzeigen. Es beschreibt auch das Lesen von Daten aus Absätzen, Tabellen usw., so dass jedes Textsegment mit einem anderen Stil getrennt wird oder auf jeden Tabellenzellenwert separat zur Verarbeitung zugegriffen wird
Code zum Lesen von Word-Dateien in C#
Dieser Code zeigt wie Word-Dateien in C# gelesen werden, indem die Document.GetChildNodes()-Funktion verwendet wird, die das Abrufen eines Knotentyps wie Paragraph, Run, Section, Body, HeaderFooter, Comment usw. erfordert. Sobald auf den untergeordneten Knoten zugegriffen wird , müssen Sie es in den entsprechenden Typ umwandeln, um seine Methoden und Eigenschaften zu verwenden. Zum Beispiel haben wir das Dokument zweimal gelesen, so dass zuerst der gesamte Text des gesamten Dokuments angezeigt wird, unabhängig von einem normalen Absatz oder einer Tabelle usw., und das zweite Mal wird es basierend auf einer Änderung des Stils und des Inhaltstyps gelesen.
In diesem Artikel haben wir gelernt, Word-Dateien zu lesen, aber wenn Sie mehr über die Konvertierung von Word-Dokumenten in HTML erfahren möchten, lesen Sie den Artikel über So konvertieren Sie Word-Dokumente mit C# in HTML.