В този кратък урок ще научим как да четем документ на Word в C# с помощта на подробности за конфигурацията на средата, списък със стъпки и код, който може да се изпълнява. Кодът ще демонстрира четене на Word файл по различни начини. Ще научите как C# чете документ на Word, като заредите файл на Word като DOCX, DOC, RTF или HTML и т.н., и след това получите достъп до различните му елементи за обработка или преглед.
Стъпки за четене на данни от Word документ в C#
- Конфигурирайте средата на проекта да използва Aspose.Words от мениджъра на пакети NuGet
- Заредете входния DOCX файл в обекта на клас Document
- Вземете всички възли от тип Paragraph от документа
- Преобразувайте всеки параграф в низ и го покажете на конзолата
- Вземете всички възли от типа Run от документа
- Конвертирайте всеки Run елемент в низ и го покажете заедно с името и размера на шрифта
Тези стъпки предоставят подробната информация, необходима за конфигуриране на средата и задачите, които да се изпълняват, докато пишете програма за четене на файлове на Word. Той показва как C# чете DOCX файл, като зарежда изходния файл в екземпляра на класа Document и след това осъществява достъп до всички негови параграфи, за да покаже текста. Той също така описва четене на данни от абзаци, таблици и т.н., така че всеки сегмент от текст с различен стил е отделен или всяка стойност на клетка от таблица е отделно достъпна за обработка.
Код за четене на Word файл в C#
using System; | |
using Aspose.Words; | |
namespace ReadWordDocumentInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) // Main function to read Word document in C# | |
{ | |
// Create and load license to read DOCX without trial limits | |
License licRotateImage = new License(); | |
licRotateImage.SetLicense("Aspose.Word.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true)) | |
Console.WriteLine(para.ToString(SaveFormat.Text)); | |
// Read all the Runs in the document and display style and text | |
foreach (Run run in doc.GetChildNodes(NodeType.Run, true)) | |
{ | |
Font font = run.Font; | |
Console.WriteLine(font.Name + "," + font.Size.ToString()); | |
Console.WriteLine(run.Text); | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
Този код демонстрира как да се чете файл на Word в C# с помощта на функцията Document.GetChildNodes(), която изисква извличане на тип възел като абзац, изпълнение, раздел, тяло, долен колонтитул, коментар и т.н. След достъп до дъщерния възел , трябва да го преобразувате към съответния тип, за да използвате неговите методи и свойства. Например прочетохме документа два пъти, така че първо се показва целият текст от целия документ, независимо от нормален абзац или таблица и т.н., а вторият път се чете въз основа на всяка промяна в стила и типа съдържание.
Тази статия ни научи да четем файлове на Word, но ако искате да научите конвертирането на документи на Word в HTML, вижте статията на как да конвертирате документ на Word в HTML с помощта на C#.