Extraia texto de documento do Word em Python

Utilizando este exemplo, você aprenderá como extrair Text de um documento do Word em Python. Ele também fornece informações para configurar o ambiente de desenvolvimento seguindo um fluxo de trabalho passo a passo e um exemplo de código para desenvolver um conversor Word para TXT usando Python. Este aplicativo pode ser integrado a qualquer ambiente que suporte Python e a estrutura .NET no Windows, Linux ou macOS.

Etapas para extrair texto de um documento do Word em Python

  1. Estabeleça o ambiente instalando Aspose.Words para Python via .NET para converter arquivo DOCX em um arquivo TXT usando Python
  2. Usando uma instância da classe Document, acesse o arquivo Word DOCX de origem
  3. Use uma instância de objeto de classe TxtSaveOptions para definir as propriedades necessárias
  4. Converta o documento do Word carregado em um arquivo TXT usando o método save

Essas etapas precisas em Python extraem texto do arquivo DOCX usando uma interface API muito simples. O processo começará acessando o arquivo DOCX de origem do disco usando uma instância da classe Document, que é seguida pela configuração das propriedades do arquivo TXT de saída desejada usando o objeto da classe TxtSaveOptions. Finalmente, o arquivo do documento Word carregado é salvo como um arquivo TXT no disco usando o método save.

Código para converter DOCX em TXT em Python

import aspose.words as aw
import io
# Path to the source files
filePath = "Y:////KB//TestData//"
# Load the Aspose.Words license in your application to convert DOCX to TXT
wordtoTxtLicense = aw.License()
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
# Use the Document class object to access the source DOCX file
srcDocument = aw.Document(filePath + "Test1.docx")
#Optional Text saving options
txtOpts = aw.saving.TxtSaveOptions()
txtOpts.max_characters_per_line = 100
txtOpts.save_format = aw.SaveFormat.TEXT
txtOpts.pretty_format = True
srcDocument.save(filePath + "ExtractedText.txt", txtOpts);
print ("Document converted to TXT successfully")

O exemplo demonstra a capacidade da API para converter DOCX em TXT em Python. Usar a instância da classe TxtSaveOptions é opcional e você pode salvar o arquivo TXT usando as opções padrão. No entanto, se desejar personalizar o arquivo TXT de saída, você pode usar diferentes propriedades expostas pela classe TxtSaveOptions, incluindo configuração de codificação, force_page_breaks, max_characters_per_line, parágrafo_break e pretty_format, para citar alguns.

Neste artigo, aprendemos que para extrair texto da API baseada em DOCX Python pode ser uma boa escolha. Se você quiser aprender a comparar documentos PDF, consulte o artigo em Compare documentos PDF usando Python.

 Português