Bằng cách sử dụng ví dụ này, bạn sẽ học cách trích xuất Text từ tài liệu Word bằng Python. Nó cũng cung cấp thông tin để định cấu hình môi trường phát triển bằng cách tuân thủ quy trình làm việc từng bước và mã ví dụ để phát triển trình chuyển đổi Word sang TXT bằng Python. Ứng dụng này có thể được tích hợp vào bất kỳ môi trường nào hỗ trợ Python và .NET framework trong Windows, Linux hoặc macOS.
Các bước để trích xuất văn bản từ tài liệu Word bằng Python
- Thiết lập môi trường bằng cách cài đặt Aspose.Words cho Python qua .NET để chuyển đổi tệp DOCX thành tệp TXT bằng Python
- Bằng cách sử dụng phiên bản của lớp Document, hãy truy cập tệp Word DOCX nguồn
- Sử dụng phiên bản đối tượng lớp TxtSaveOptions để đặt các thuộc tính bắt buộc
- Chuyển đổi tài liệu Word đã tải thành tệp TXT bằng phương pháp lưu
Các bước chính xác này trong Python trích xuất văn bản từ tệp DOCX bằng giao diện API rất đơn giản. Quá trình sẽ bắt đầu bằng cách truy cập tệp DOCX nguồn từ đĩa bằng cách sử dụng một phiên bản của lớp Tài liệu, sau đó là thiết lập các thuộc tính tệp TXT đầu ra mong muốn bằng cách sử dụng đối tượng lớp TxtSaveOptions. Cuối cùng, tệp tài liệu Word đã tải sẽ được lưu dưới dạng tệp TXT trên đĩa bằng phương thức lưu.
Mã để chuyển đổi DOCX sang TXT bằng Python
import aspose.words as aw | |
import io | |
# Path to the source files | |
filePath = "Y:////KB//TestData//" | |
# Load the Aspose.Words license in your application to convert DOCX to TXT | |
wordtoTxtLicense = aw.License() | |
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic") | |
# Use the Document class object to access the source DOCX file | |
srcDocument = aw.Document(filePath + "Test1.docx") | |
#Optional Text saving options | |
txtOpts = aw.saving.TxtSaveOptions() | |
txtOpts.max_characters_per_line = 100 | |
txtOpts.save_format = aw.SaveFormat.TEXT | |
txtOpts.pretty_format = True | |
srcDocument.save(filePath + "ExtractedText.txt", txtOpts); | |
print ("Document converted to TXT successfully") |
Ví dụ này minh họa khả năng API để chuyển đổi DOCX sang TXT bằng Python. Việc sử dụng phiên bản lớp TxtSaveOptions là tùy chọn và bạn có thể lưu tệp TXT bằng các tùy chọn mặc định. Tuy nhiên, nếu bạn muốn tùy chỉnh tệp TXT đầu ra, bạn có thể sử dụng các thuộc tính khác nhau được hiển thị bởi lớp TxtSaveOptions bao gồm cài đặt mã hóa, Force_page_breaks, max_characters_per_line, đoạn_break và beautiful_format để đặt tên cho một số.
Trong bài viết này, chúng ta đã biết rằng để trích xuất Văn bản từ DOCX Python, API dựa trên có thể là một lựa chọn tốt. Nếu bạn muốn tìm hiểu cách so sánh các tài liệu PDF, hãy tham khảo bài viết trên So sánh tài liệu PDF bằng Python.