Извлечь текст из документа Word в Python

Используя этот пример, вы узнаете, как извлечь Text из документа Word на Python. Он также предоставляет информацию для настройки среды разработки с помощью пошагового рабочего процесса и пример кода для разработки конвертера Word в TXT с использованием Python. Это приложение можно интегрировать в любую среду, поддерживающую Python и платформу .NET в Windows, Linux или macOS.

Действия по извлечению текста из документа Word в Python

  1. Создайте среду, установив Aspose.Words для Python через .NET для преобразования файла DOCX в файл TXT с помощью Python.
  2. Используя экземпляр класса Document, получите доступ к исходному файлу Word DOCX.
  3. Используйте экземпляр объекта класса TxtSaveOptions, чтобы установить необходимые свойства.
  4. Преобразуйте загруженный документ Word в файл TXT, используя метод сохранения.

Эти точные шаги Python извлекают текст из файла DOCX, используя очень простой интерфейс API. Процесс начнется с доступа к исходному файлу DOCX с диска с использованием экземпляра класса Document, после чего следует установка желаемых свойств выходного файла TXT с использованием объекта класса TxtSaveOptions. Наконец, загруженный файл документа Word сохраняется как файл TXT на диске с использованием метода сохранения.

Код для преобразования DOCX в TXT на Python

import aspose.words as aw
import io
# Path to the source files
filePath = "Y:////KB//TestData//"
# Load the Aspose.Words license in your application to convert DOCX to TXT
wordtoTxtLicense = aw.License()
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
# Use the Document class object to access the source DOCX file
srcDocument = aw.Document(filePath + "Test1.docx")
#Optional Text saving options
txtOpts = aw.saving.TxtSaveOptions()
txtOpts.max_characters_per_line = 100
txtOpts.save_format = aw.SaveFormat.TEXT
txtOpts.pretty_format = True
srcDocument.save(filePath + "ExtractedText.txt", txtOpts);
print ("Document converted to TXT successfully")

В примере демонстрируется возможность API конвертировать DOCX в TXT в Python. Использование экземпляра класса TxtSaveOptions не является обязательным, и вы можете сохранить файл TXT, используя параметры по умолчанию. Однако если вы хотите настроить выходной TXT-файл, вы можете использовать различные свойства, предоставляемые классом TxtSaveOptions, включая настройку кодировки, Force_page_breaks, max_characters_per_line, Paragraph_break и Pretty_format, и это лишь некоторые из них.

В этой статье мы узнали, что для извлечения текста из DOCX API на основе Python может быть хорошим выбором. Если вы хотите научиться сравнивать PDF-документы, обратитесь к статье на Сравнение PDF-документов с помощью Python.

 Русский