Extraire le texte d'un document Word en Python

En utilisant cet exemple, vous apprendrez comment extraire Text d’un document Word en Python. Il fournit également les informations nécessaires pour configurer l’environnement de développement en adhérant à un flux de travail étape par étape, ainsi qu’un exemple de code pour développer un convertisseur Word vers TXT à l’aide de Python. Cette application peut être intégrée à n’importe quel environnement prenant en charge Python et le framework .NET sous Windows, Linux ou macOS.

Étapes pour extraire le texte d’un document Word en Python

  1. Établissez l’environnement en installant Aspose.Words pour Python via .NET pour convertir le fichier DOCX en fichier TXT à l’aide de Python
  2. En utilisant une instance de la classe Document, accédez au fichier source Word DOCX
  3. Utilisez une instance d’objet de classe TxtSaveOptions pour définir les propriétés requises
  4. Convertissez le document Word chargé en fichier TXT à l’aide de la méthode de sauvegarde

Ces étapes précises dans Python extraient le texte du fichier DOCX à l’aide d’une interface API très simple. Le processus commencera par accéder au fichier DOCX source à partir du disque à l’aide d’une instance de la classe Document, suivi de la définition des propriétés du fichier TXT de sortie souhaité à l’aide de l’objet de classe TxtSaveOptions. Enfin, le fichier de document Word chargé est enregistré en tant que fichier TXT sur le disque à l’aide de la méthode de sauvegarde.

Code pour convertir DOCX en TXT en Python

L’exemple démontre la capacité de l’API à convertir DOCX en TXT en Python. L’utilisation de l’instance de classe TxtSaveOptions est facultative et vous pouvez enregistrer le fichier TXT en utilisant les options par défaut. Cependant, si vous souhaitez personnaliser le fichier TXT de sortie, vous pouvez utiliser différentes propriétés exposées par la classe TxtSaveOptions, notamment le paramètre d’encodage, force_page_breaks, max_characters_per_line, paragraphe_break et Pretty_format, pour n’en nommer que quelques-unes.

Dans cet article, nous avons appris que pour extraire du texte de DOCX, une API basée sur Python peut être un bon choix. Si vous souhaitez apprendre à comparer des documents PDF, reportez-vous à l’article sur Comparez des documents PDF à l’aide de Python.

 Français