В этом кратком руководстве мы узнаем, как читать документ Word на C# с помощью сведений о конфигурации среды, списка шагов и исполняемого кода. Код продемонстрирует чтение файла Word разными способами. Вы узнаете, как C# читает документ Word, загрузив файл Word, такой как DOCX, DOC, RTF или HTML и т. д., а затем получив доступ к его различным элементам для обработки или просмотра.
Шаги для чтения данных из документа Word в C#
- Настройте среду проекта для использования Aspose.Words из диспетчера пакетов NuGet.
- Загрузите входной файл DOCX в объект класса Document.
- Получить все узлы типа Paragraph из документа
- Преобразуйте каждый абзац в строку и отобразите его на консоли.
- Получить все узлы типа Run из документа
- Преобразуйте каждый элемент Run в строку и отобразите ее вместе с именем и размером шрифта.
Эти шаги предоставляют подробную информацию, необходимую для настройки среды и задач, которые необходимо выполнить при написании программы чтения файлов Word. Он показывает, как C# читает файл DOCX, загружая исходный файл в экземпляр класса Document и затем получая доступ ко всем его абзацам для отображения текста. Он также описывает чтение данных из абзацев, таблиц и т. д. таким образом, что каждый сегмент текста с другим стилем отделяется или каждое значение ячейки таблицы доступно для обработки отдельно.
Код для чтения файла Word в С#
using System; | |
using Aspose.Words; | |
namespace ReadWordDocumentInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) // Main function to read Word document in C# | |
{ | |
// Create and load license to read DOCX without trial limits | |
License licRotateImage = new License(); | |
licRotateImage.SetLicense("Aspose.Word.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true)) | |
Console.WriteLine(para.ToString(SaveFormat.Text)); | |
// Read all the Runs in the document and display style and text | |
foreach (Run run in doc.GetChildNodes(NodeType.Run, true)) | |
{ | |
Font font = run.Font; | |
Console.WriteLine(font.Name + "," + font.Size.ToString()); | |
Console.WriteLine(run.Text); | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
Этот код демонстрирует * как читать файл Word в C# * с помощью функции Document.GetChildNodes(), которая требует, чтобы тип узла был извлечен, например Paragraph, Run, Section, Body, HeaderFooter, Comment и т. д. После доступа к дочернему узлу , вы должны привести его к соответствующему типу, чтобы использовать его методы и свойства. Например, мы прочитали документ дважды, так что сначала весь текст из всего документа отображается независимо от обычного абзаца или таблицы и т. д., а второй раз он читается на основе любого изменения стиля и типа содержимого.
Эта статья научила нас читать файлы Word, однако, если вы хотите научиться преобразовывать документы Word в HTML, обратитесь к статье как преобразовать документ Word в HTML с помощью C#.