Trích xuất văn bản từ tài liệu Word trong C#

Bạn có thể Trích xuất Text từ tài liệu Word trong C# bằng hướng dẫn ngắn gọn này. Nó bao gồm các bước để thiết lập môi trường phát triển, quy trình làm việc từng bước và mã mẫu đang hoạt động hiện tại để chuyển đổi DOCX sang TXT trong C#. Ứng dụng đã phát triển có thể được tích hợp vào bất kỳ ứng dụng nào hỗ trợ .NET framework trong Linux, MS Windows hoặc macOS.

Các bước trích xuất văn bản từ tài liệu Word trong C#

  1. Thiết lập hệ thống bằng cách cài đặt Aspose.Words for .NET để chuyển đổi tệp DOCX thành tệp TXT bằng C#
  2. Truy cập tài liệu Word nguồn bằng cách sử dụng phiên bản của lớp Document
  3. Khởi tạo phiên bản lớp TxtSaveOptions và đặt các thuộc tính bắt buộc
  4. Lưu file Word dưới dạng TXT trên đĩa bằng phương pháp Save

Các bước ngắn gọn này trong C# trích xuất Văn bản từ Tài liệu Word bằng cách sử dụng một vài lệnh gọi API. Đầu tiên, tải tệp tài liệu Word nguồn từ đĩa, sau đó thiết lập các tùy chọn xuất tệp TXT đầu ra bằng cách sử dụng phiên bản lớp TxtSaveOptions. Cuối cùng, DOCX đã tải sẽ được lưu dưới dạng tệp TXT trên đĩa bằng phương thức Lưu.

Mã chuyển đổi DOCX sang TXT trong C#

Để trích xuất văn bản từ tài liệu Word, API dựa trên C# đã được sử dụng một cách hiệu quả trong đoạn mã này. Bạn có thể lưu tài liệu Word vào TXT mà không cần sử dụng phiên bản lớp TxtSaveOptions tùy chọn. Tuy nhiên, nếu bạn phải tùy chỉnh thêm tệp TXT đầu ra, bạn có thể sử dụng các thuộc tính khác nhau được lớp TxtSaveOptions hiển thị, bao gồm cài đặt Encoding, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak và PrettyFormat để đặt tên cho một số.

Bài viết này đã giải thích thông tin để phát triển trình chuyển đổi Word sang TXT bằng C#. Nếu bạn muốn so sánh các tài liệu PDF, hãy tham khảo bài viết trên So sánh tài liệu PDF bằng C#.

 Tiếng Việt