Используя этот пример, вы узнаете, как извлечь Text из документа Word на Python. Он также предоставляет информацию для настройки среды разработки с помощью пошагового рабочего процесса и пример кода для разработки конвертера Word в TXT с использованием Python. Это приложение можно интегрировать в любую среду, поддерживающую Python и платформу .NET в Windows, Linux или macOS.
Действия по извлечению текста из документа Word в Python
- Создайте среду, установив Aspose.Words для Python через .NET для преобразования файла DOCX в файл TXT с помощью Python.
- Используя экземпляр класса Document, получите доступ к исходному файлу Word DOCX.
- Используйте экземпляр объекта класса TxtSaveOptions, чтобы установить необходимые свойства.
- Преобразуйте загруженный документ Word в файл TXT, используя метод сохранения.
Эти точные шаги Python извлекают текст из файла DOCX, используя очень простой интерфейс API. Процесс начнется с доступа к исходному файлу DOCX с диска с использованием экземпляра класса Document, после чего следует установка желаемых свойств выходного файла TXT с использованием объекта класса TxtSaveOptions. Наконец, загруженный файл документа Word сохраняется как файл TXT на диске с использованием метода сохранения.
Код для преобразования DOCX в TXT на Python
В примере демонстрируется возможность API конвертировать DOCX в TXT в Python. Использование экземпляра класса TxtSaveOptions не является обязательным, и вы можете сохранить файл TXT, используя параметры по умолчанию. Однако если вы хотите настроить выходной TXT-файл, вы можете использовать различные свойства, предоставляемые классом TxtSaveOptions, включая настройку кодировки, Force_page_breaks, max_characters_per_line, Paragraph_break и Pretty_format, и это лишь некоторые из них.
В этой статье мы узнали, что для извлечения текста из DOCX API на основе Python может быть хорошим выбором. Если вы хотите научиться сравнивать PDF-документы, обратитесь к статье на Сравнение PDF-документов с помощью Python.