Hướng dẫn đơn giản này trình bày cách chuyển đổi HTML thành văn bản trong C#. Trong C# HTML sang văn bản thuần túy có thể dễ dàng chuyển đổi bằng cách sử dụng một vài dòng mã cho bất kỳ ứng dụng dựa trên .NET nào chạy trong nền tảng Windows, macOS hoặc Linux.
Các bước để chuyển đổi HTML thành văn bản trong C#
- Cài đặt Aspose.HTML for .NET từ trình quản lý gói NuGet
- Bao gồm không gian tên Aspose.HTML trong dự án của bạn
- Tải nội dung tệp HTML vào Chuỗi
- Tạo một thể hiện của lớp HTMLDocument để tải Chuỗi chứa HTML
- Khởi tạo thể hiện của lớp INodeIterator để lặp qua các nút và thêm vào StringBuilder
- Cuối cùng, lưu văn bản đã chuyển đổi từ HTML trên đĩa
Để lấy văn bản thuần túy từ HTML C#, một vài dòng mã có thể được sử dụng hiệu quả trong bất kỳ ứng dụng dựa trên .NET nào. Quá trình bắt đầu bằng cách tải tệp HTML dưới dạng Chuỗi vào thể hiện HTMLDocument class bằng cách sử dụng phương thức File.ReadAllText. Sau đó, INodeIterator sẽ được sử dụng để trích xuất các nút từ HTML và nối chúng vào StringBuilder. Cuối cùng, HTML được trích xuất trong StringBuilder sẽ được lưu trên đĩa.
Mã để chuyển đổi HTML thành văn bản trong C#
Đoạn mã trên trong C# chuyển đổi HTML thành văn bản thuần túy bằng cách sử dụng một số lệnh gọi API. Chúng tôi đã sử dụng StyleFilter class tùy chỉnh kế thừa NodeFilter class để ghi đè phương thức AcceptNode, phương thức lọc ra các nút không mong muốn khỏi HTML trong quá trình chuyển đổi.
Trong chủ đề trước, chúng ta đã học cách tạo tệp HTML trong C#. Trong khi đó, ví dụ trên trong C# lấy văn bản thuần túy từ tệp HTML theo chương trình.