Trong hướng dẫn ngắn này, chúng ta sẽ tìm hiểu cách đọc tài liệu Word trong C# với sự trợ giúp của các chi tiết về cấu hình môi trường, danh sách các bước và mã có thể chạy được. Đoạn mã này sẽ minh họa cách đọc tệp Word theo nhiều cách khác nhau. Bạn sẽ tìm hiểu cách C# đọc tài liệu Word bằng cách tải một tệp Word như DOCX, DOC, RTF hoặc HTML, v.v., sau đó truy cập các thành phần khác nhau của nó để xử lý hoặc xem.
Các bước để đọc dữ liệu từ tài liệu Word trong C#
- Định cấu hình môi trường dự án để sử dụng Aspose.Words từ trình quản lý gói NuGet
- Tải tệp DOCX đầu vào vào đối tượng lớp Document
- Nhận tất cả các nút loại Paragraph từ tài liệu
- Chuyển đổi từng đoạn thành một chuỗi và hiển thị nó trên bàn điều khiển
- Nhận tất cả các nút loại Run từ tài liệu
- Chuyển đổi từng mục Run thành một chuỗi và hiển thị nó cùng với tên và kích thước phông chữ
Các bước này cung cấp thông tin chi tiết cần thiết để định cấu hình môi trường và các tác vụ sẽ được thực hiện trong khi viết chương trình đọc tệp Word. Nó cho thấy cách C# đọc tệp DOCX bằng cách tải tệp nguồn vào thể hiện của lớp Tài liệu và sau đó truy cập tất cả các đoạn văn của nó để hiển thị văn bản. Nó cũng mô tả việc đọc dữ liệu từ các đoạn văn, bảng, v.v. sao cho từng đoạn văn bản có kiểu khác nhau được tách ra hoặc từng giá trị ô của bảng được truy cập riêng để xử lý.s
Mã để đọc tệp Word trong C#
Mã này trình bày cách đọc tệp Word trong C# bằng cách sử dụng hàm Document.GetChildNodes() yêu cầu loại nút được tìm nạp như Đoạn, Chạy, Phần, Nội dung, HeaderFooter, Nhận xét, v.v. Sau khi nút con được truy cập , bạn phải truyền nó sang loại tương ứng để sử dụng các phương thức và thuộc tính của nó. Ví dụ: chúng tôi đã đọc tài liệu hai lần sao cho lần đầu tiên tất cả văn bản từ toàn bộ tài liệu được hiển thị bất kể đoạn văn bình thường hay bảng, v.v. và lần thứ hai nó được đọc dựa trên bất kỳ thay đổi nào về kiểu và loại nội dung.
Bài viết này dạy chúng ta đọc tệp Word, tuy nhiên nếu bạn muốn tìm hiểu cách chuyển đổi tài liệu Word sang HTML, hãy tham khảo bài viết trên cách chuyển đổi tài liệu Word sang HTML bằng C#.