Cách đọc tài liệu Word trong Java

Hướng dẫn ngắn gọn này trình bày thông tin về cách đọc tài liệu Word trong Java bằng cách cung cấp quy trình từng bước chi tiết và mã Java có thể chạy được để đọc tài liệu mẫu theo các cách khác nhau. Nó giới thiệu các lớp cần thiết được sử dụng để đọc tệp Word và truy cập các phân đoạn khác nhau của nó. Trong khi đọc tài liệu Word bằng mã Java như DOCX, DOC hoặc các tệp được hỗ trợ MS Word khác, bạn sẽ lặp qua các nút con khác nhau của tài liệu và xử lý từng nút theo yêu cầu của bạn.

Các bước để đọc tệp Word trong Java

  1. Cài đặt Aspose.Words for Java bằng kho lưu trữ Maven để đọc tệp DOCX
  2. Tải tệp DOCX nguồn vào đối tượng lớp Document để đọc trong Java
  3. Lặp lại tất cả các nút loại Paragraph trong tài liệu
  4. Chuyển đổi từng đoạn văn bản thành một chuỗi và hiển thị nó trên bàn điều khiển
  5. Lặp lại tất cả các nút loại Run trong tài liệu
  6. Chuyển đổi từng nút thành loại Run và truy cập tên phông chữ, kích thước và văn bản của Run
  7. Hiển thị từng văn bản chạy trên bàn điều khiển

Các bước này mô tả cách đọc tệp Word trong Java bằng cách chia sẻ liên kết tới trang cấu hình và sau đó hướng dẫn tải tài liệu Word nguồn. Sau khi tệp Word được tải, mô hình đối tượng tài liệu (DOM) của nó, tức là cấu trúc logic cũng được tải và có thể được phân tích cú pháp theo nhiều cách khác nhau. Các bước này hỗ trợ chuẩn bị hai bộ sưu tập chính là Đoạn và Chạy để truy cập các phần khác nhau của tài liệu Word đã tải.

Mã để đọc tệp DOCX trong Java

Mã Java để đọc tài liệu Word này thể hiện việc phân tích cú pháp DOM bằng cách sử dụng các bộ lọc khác nhau, ví dụ: ở vị trí đầu tiên, chúng tôi tìm nạp tất cả các nút đoạn văn. Lớp Đoạn văn cung cấp hàm toString() trích xuất văn bản từ toàn bộ đoạn văn bao gồm Bảng, v.v. và lưu nó vào một biến chuỗi. Tương tự, khi chúng tôi phân tích cú pháp tài liệu để tìm nạp tất cả các Lần chạy, nó sẽ phân tách nội dung dựa trên kiểu, phông chữ, loại nút, v.v. và chia một đoạn văn thành nhiều phân đoạn dựa trên kiểu phông chữ văn bản như văn bản in đậm sẽ được cung cấp riêng, in nghiêng văn bản riêng biệt và như vậy.

Hướng dẫn này đã hướng dẫn chúng tôi đọc tệp DOCX, tuy nhiên, nếu bạn muốn một số loại chuyển đổi như Word sang PDF, hãy tham khảo bài viết trên cách chuyển Word sang PDF trong Java.

 Tiếng Việt