通过使用此示例,您将学习如何从 Python 中的 Word 文档中提取 Text。它还提供了通过遵循分步工作流程来配置开发环境的信息,以及使用 Python 开发 **Word 到 TXT 转换器的示例代码。该应用程序可以集成到 Windows、Linux 或 macOS 中支持 Python 和 .NET 框架的任何环境中。
使用 Python 从 Word 文档中提取文本的步骤
- 通过安装Aspose.Words for Python 通过 .NET建立环境,使用Python将DOCX文件转换为TXT文件
- 通过使用 Document 类的实例,访问源 Word DOCX 文件
- 使用 TxtSaveOptions 类对象实例来设置所需的属性
- 使用save方法将加载的Word文档转换为TXT文件
Python 中的这些精确步骤使用非常简单的 API 接口从 DOCX 文件中提取文本。该过程首先使用 Document 类的实例从磁盘访问源 DOCX 文件,然后使用 TxtSaveOptions 类对象设置所需的输出 TXT 文件属性。最后,使用save方法将加载的Word文档文件以TXT文件的形式保存在磁盘上。
在 Python 中将 DOCX 转换为 TXT 的代码
import aspose.words as aw | |
import io | |
# Path to the source files | |
filePath = "Y:////KB//TestData//" | |
# Load the Aspose.Words license in your application to convert DOCX to TXT | |
wordtoTxtLicense = aw.License() | |
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic") | |
# Use the Document class object to access the source DOCX file | |
srcDocument = aw.Document(filePath + "Test1.docx") | |
#Optional Text saving options | |
txtOpts = aw.saving.TxtSaveOptions() | |
txtOpts.max_characters_per_line = 100 | |
txtOpts.save_format = aw.SaveFormat.TEXT | |
txtOpts.pretty_format = True | |
srcDocument.save(filePath + "ExtractedText.txt", txtOpts); | |
print ("Document converted to TXT successfully") |
该示例演示了在 Python 中将 DOCX 转换为 TXT 的 API 功能。使用 TxtSaveOptions 类实例是可选的,您可以使用默认选项保存 TXT 文件。但是,如果您希望自定义输出 TXT 文件,则可以使用 TxtSaveOptions 类公开的不同属性,包括设置编码、force_page_breaks、max_characters_per_line、paragraph_break 和 Pretty_format 等。
在本文中,我们了解到,为了从 DOCX 中提取文本,基于 Python 的 API 可能是一个不错的选择。如果您想学习比较 PDF 文档,请参阅 使用 Python 比较 PDF 文档 上的文章。