Trích xuất văn bản từ tài liệu Word trong Java

Người ta có thể Trích xuất Text từ tài liệu Word bằng Java bằng cách tham khảo bài viết đơn giản này. Nó bao gồm các bước cần thiết để thiết lập môi trường phát triển, quy trình làm việc của chương trình theo từng bước và mã ví dụ đang chạy để chuyển đổi DOCX sang TXT trong Java. Ứng dụng đã phát triển có thể được sử dụng trong mọi môi trường hỗ trợ Java trong Linux, MS Windows hoặc macOS.

Các bước phát triển Word to TXT Converter bằng Java

  1. Configure the environment by installing Aspose.Words for Java from the repository manager to convert a DOCX file to a TXT file using Java
  2. Mở tài liệu Word nguồn bằng cách tạo một phiên bản của lớp Document để chuyển đổi tệp Word sang TXT
  3. Tạo đối tượng lớp TxtSaveOptions để đặt thuộc tính tệp TXT đầu ra được yêu cầu
  4. Lưu tệp DOCX đã tải dưới dạng tệp TXT trên đĩa bằng phương thức lưu

Các bước chính xác này trong Java trích xuất văn bản từ tài liệu Word bằng giao diện API đơn giản. Đầu tiên, chúng ta sẽ tải tệp DOCX nguồn từ đĩa bằng cách sử dụng một phiên bản của lớp Tài liệu, sau đó là thiết lập các tùy chọn xuất tệp TXT đầu ra mong muốn bằng cách sử dụng một phiên bản của lớp TxtSaveOptions. Cuối cùng, tài liệu Word đã mở sẽ được lưu dưới dạng tệp TXT trên đĩa bằng phương thức lưu.

Mã để chuyển đổi DOCX sang TXT trong Java

Để truy cập DOCX nguồn từ đĩa và trích xuất văn bản từ tài liệu Word, API dựa trên Java đã được sử dụng trong ví dụ mã nói trên. Người ta có thể lưu tệp TXT trên đĩa mà không cần dựa vào thể hiện lớp TxtSaveOptions tùy chọn. Tuy nhiên, nếu muốn tùy chỉnh tệp TXT mong muốn, bạn có thể sử dụng các phương thức setter khác nhau do lớp TxtSaveOptions cung cấp, bao gồm setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() và setPrettyFormat() để đặt tên cho một số phương thức.

Bài viết này đã giúp chúng tôi phát triển một trình chuyển đổi Word sang TXT bằng Java. Nếu bạn quan tâm đến việc so sánh các văn bản Word, hãy tham khảo bài viết trên So sánh tài liệu Word bằng Java.

 Tiếng Việt