Jak czytać dokument Worda w C#

W tym krótkim samouczku nauczymy się jak czytać dokument Worda w C# za pomocą szczegółów konfiguracji środowiska, listy kroków i kodu, który można uruchomić. Kod zademonstruje odczytywanie pliku Worda na różne sposoby. Dowiesz się, jak C# odczytuje dokument Word, ładując plik Word, taki jak DOCX, DOC, RTF lub HTML itp., a następnie uzyskując dostęp do jego różnych elementów w celu przetworzenia lub wyświetlenia.

Kroki, aby odczytać dane z dokumentu programu Word w języku C#

  1. Skonfiguruj środowisko projektu do używania Aspose.Words z menedżera pakietów NuGet
  2. Załaduj wejściowy plik DOCX do obiektu klasy Document
  3. Pobierz wszystkie węzły typu Paragraph z dokumentu
  4. Przekonwertuj każdy akapit na ciąg znaków i wyświetl go w konsoli
  5. Pobierz wszystkie węzły typu Run z dokumentu
  6. Konwertuj każdy element Run na ciąg i wyświetlaj go wraz z nazwą i rozmiarem czcionki

Te kroki zawierają szczegółowe informacje wymagane do skonfigurowania środowiska i zadań do wykonania podczas pisania programu czytającego pliki Word. Pokazuje, w jaki sposób C# odczytuje plik DOCX, ładując plik źródłowy do instancji klasy Document, a następnie uzyskując dostęp do wszystkich jej akapitów w celu wyświetlenia tekstu. Opisuje również odczytywanie danych z akapitów, tabel itp. w taki sposób, że każdy segment tekstu o innym stylu jest oddzielony lub każda wartość komórki tabeli jest oddzielnie dostępna do przetwarzania.

Kod do odczytu pliku Word w C#

using System;
using Aspose.Words;
namespace ReadWordDocumentInCSharp
{
class Program
{
static void Main(string[] args) // Main function to read Word document in C#
{
// Create and load license to read DOCX without trial limits
License licRotateImage = new License();
licRotateImage.SetLicense("Aspose.Word.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
Console.WriteLine(para.ToString(SaveFormat.Text));
// Read all the Runs in the document and display style and text
foreach (Run run in doc.GetChildNodes(NodeType.Run, true))
{
Font font = run.Font;
Console.WriteLine(font.Name + "," + font.Size.ToString());
Console.WriteLine(run.Text);
}
System.Console.WriteLine("Done");
}
}
}

Ten kod demonstruje jak czytać plik Word w C# za pomocą funkcji Document.GetChildNodes(), która wymaga pobrania typu węzła, takiego jak Paragraph, Run, Section, Body, HeaderFooter, Comment itp. Po uzyskaniu dostępu do węzła podrzędnego , musisz rzucić go na odpowiedni typ, aby użyć jego metod i właściwości. Na przykład przeczytaliśmy dokument dwa razy, tak że najpierw wyświetlany jest cały tekst z całego dokumentu, niezależnie od normalnego akapitu lub tabeli itp., a drugi raz jest odczytywany na podstawie jakiejkolwiek zmiany stylu i rodzaju treści.

Ten artykuł nauczył nas czytać pliki Word, jednak jeśli chcesz nauczyć się konwersji dokumentów Word do HTML, zapoznaj się z artykułem na jak przekonwertować dokument Worda na HTML za pomocą C#.

 Polski