Как да четем Word документ в C#

В този кратък урок ще научим как да четем документ на Word в C# с помощта на подробности за конфигурацията на средата, списък със стъпки и код, който може да се изпълнява. Кодът ще демонстрира четене на Word файл по различни начини. Ще научите как C# чете документ на Word, като заредите файл на Word като DOCX, DOC, RTF или HTML и т.н., и след това получите достъп до различните му елементи за обработка или преглед.

Стъпки за четене на данни от Word документ в C#

  1. Конфигурирайте средата на проекта да използва Aspose.Words от мениджъра на пакети NuGet
  2. Заредете входния DOCX файл в обекта на клас Document
  3. Вземете всички възли от тип Paragraph от документа
  4. Преобразувайте всеки параграф в низ и го покажете на конзолата
  5. Вземете всички възли от типа Run от документа
  6. Конвертирайте всеки Run елемент в низ и го покажете заедно с името и размера на шрифта

Тези стъпки предоставят подробната информация, необходима за конфигуриране на средата и задачите, които да се изпълняват, докато пишете програма за четене на файлове на Word. Той показва как C# чете DOCX файл, като зарежда изходния файл в екземпляра на класа Document и след това осъществява достъп до всички негови параграфи, за да покаже текста. Той също така описва четене на данни от абзаци, таблици и т.н., така че всеки сегмент от текст с различен стил е отделен или всяка стойност на клетка от таблица е отделно достъпна за обработка.

Код за четене на Word файл в C#

using System;
using Aspose.Words;
namespace ReadWordDocumentInCSharp
{
class Program
{
static void Main(string[] args) // Main function to read Word document in C#
{
// Create and load license to read DOCX without trial limits
License licRotateImage = new License();
licRotateImage.SetLicense("Aspose.Word.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
Console.WriteLine(para.ToString(SaveFormat.Text));
// Read all the Runs in the document and display style and text
foreach (Run run in doc.GetChildNodes(NodeType.Run, true))
{
Font font = run.Font;
Console.WriteLine(font.Name + "," + font.Size.ToString());
Console.WriteLine(run.Text);
}
System.Console.WriteLine("Done");
}
}
}

Този код демонстрира как да се чете файл на Word в C# с помощта на функцията Document.GetChildNodes(), която изисква извличане на тип възел като абзац, изпълнение, раздел, тяло, долен колонтитул, коментар и т.н. След достъп до дъщерния възел , трябва да го преобразувате към съответния тип, за да използвате неговите методи и свойства. Например прочетохме документа два пъти, така че първо се показва целият текст от целия документ, независимо от нормален абзац или таблица и т.н., а вторият път се чете въз основа на всяка промяна в стила и типа съдържание.

Тази статия ни научи да четем файлове на Word, но ако искате да научите конвертирането на документи на Word в HTML, вижте статията на как да конвертирате документ на Word в HTML с помощта на C#.

 Български