W tym krótkim samouczku nauczymy się jak czytać dokument Worda w C# za pomocą szczegółów konfiguracji środowiska, listy kroków i kodu, który można uruchomić. Kod zademonstruje odczytywanie pliku Worda na różne sposoby. Dowiesz się, jak C# odczytuje dokument Word, ładując plik Word, taki jak DOCX, DOC, RTF lub HTML itp., a następnie uzyskując dostęp do jego różnych elementów w celu przetworzenia lub wyświetlenia.
Kroki, aby odczytać dane z dokumentu programu Word w języku C#
- Skonfiguruj środowisko projektu do używania Aspose.Words z menedżera pakietów NuGet
- Załaduj wejściowy plik DOCX do obiektu klasy Document
- Pobierz wszystkie węzły typu Paragraph z dokumentu
- Przekonwertuj każdy akapit na ciąg znaków i wyświetl go w konsoli
- Pobierz wszystkie węzły typu Run z dokumentu
- Konwertuj każdy element Run na ciąg i wyświetlaj go wraz z nazwą i rozmiarem czcionki
Te kroki zawierają szczegółowe informacje wymagane do skonfigurowania środowiska i zadań do wykonania podczas pisania programu czytającego pliki Word. Pokazuje, w jaki sposób C# odczytuje plik DOCX, ładując plik źródłowy do instancji klasy Document, a następnie uzyskując dostęp do wszystkich jej akapitów w celu wyświetlenia tekstu. Opisuje również odczytywanie danych z akapitów, tabel itp. w taki sposób, że każdy segment tekstu o innym stylu jest oddzielony lub każda wartość komórki tabeli jest oddzielnie dostępna do przetwarzania.
Kod do odczytu pliku Word w C#
using System; | |
using Aspose.Words; | |
namespace ReadWordDocumentInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) // Main function to read Word document in C# | |
{ | |
// Create and load license to read DOCX without trial limits | |
License licRotateImage = new License(); | |
licRotateImage.SetLicense("Aspose.Word.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true)) | |
Console.WriteLine(para.ToString(SaveFormat.Text)); | |
// Read all the Runs in the document and display style and text | |
foreach (Run run in doc.GetChildNodes(NodeType.Run, true)) | |
{ | |
Font font = run.Font; | |
Console.WriteLine(font.Name + "," + font.Size.ToString()); | |
Console.WriteLine(run.Text); | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
Ten kod demonstruje jak czytać plik Word w C# za pomocą funkcji Document.GetChildNodes(), która wymaga pobrania typu węzła, takiego jak Paragraph, Run, Section, Body, HeaderFooter, Comment itp. Po uzyskaniu dostępu do węzła podrzędnego , musisz rzucić go na odpowiedni typ, aby użyć jego metod i właściwości. Na przykład przeczytaliśmy dokument dwa razy, tak że najpierw wyświetlany jest cały tekst z całego dokumentu, niezależnie od normalnego akapitu lub tabeli itp., a drugi raz jest odczytywany na podstawie jakiejkolwiek zmiany stylu i rodzaju treści.
Ten artykuł nauczył nas czytać pliki Word, jednak jeśli chcesz nauczyć się konwersji dokumentów Word do HTML, zapoznaj się z artykułem na jak przekonwertować dokument Worda na HTML za pomocą C#.