Cách chuyển đổi HTML thành văn bản trong Java

Chủ đề đơn giản này là về cách chuyển đổi HTML thành văn bản trong Java. Trong ứng dụng chuyển đổi Java HTML sang văn bản thuần túy chạy trên nền tảng Windows, Linux hoặc macOS có thể được phát triển bằng các giao diện API đơn giản và dễ dàng.

Các bước để chuyển đổi HTML thành văn bản trong Java

  1. Định cấu hình dự án của bạn để thêm Aspose.HTML for Java từ kho lưu trữ Maven
  2. Bao gồm tham chiếu đến không gian tên Aspose.HTML trong ứng dụng của bạn
  3. Đọc nội dung tệp HMTL nguồn bằng đối tượng Chuỗi
  4. Khởi tạo đối tượng HTMLDocument class để tải Chuỗi HTML nguồn
  5. Khởi tạo đối tượng lớp INodeIterator để lặp lại các nút và thêm vào StringBuilder
  6. Lưu văn bản trích xuất từ HTML trên đĩa

Để trích xuất văn bản từ HTML Java dựa trên ứng dụng sử dụng vài dòng mã có thể được sử dụng. Chúng tôi sẽ bắt đầu quá trình bằng cách tải HTML nguồn vào một đối tượng Chuỗi và sau đó tải Chuỗi đó bằng cách sử dụng HTMLDocument class. Sau đó, chúng tôi sẽ sử dụng INodeIterator để trích xuất, duyệt qua và nối các nút HMTL vào StringBuilder. Cuối cùng, StringBuilder sẽ được lưu dưới dạng tệp văn bản thuần túy trên đĩa.

Mã để chuyển đổi HTML thành văn bản trong Java

Ví dụ trên trong Java chuyển đổi HTML thành văn bản thuần túy trong một số lệnh gọi API. Chúng tôi đã tạo Lớp StyleFilter mở rộng Lớp NodeFilter và triển khai phương thức AcceptNode để đặt bộ lọc nút khách hàng và loại bỏ các nút không mong muốn khỏi HTML trong quá trình chuyển đổi.

Trong chủ đề này, chúng ta đã khám phá cách trích xuất văn bản từ HTML trong Java. Nếu bạn quan tâm đến việc chuyển đổi tệp MD sang định dạng XPS, hãy chuyển sang chủ đề cách chuyển đổi Markdown sang XPS bằng Java.

 Tiếng Việt