Extraia texto de documento do Word em C#

Você pode Extrair Text de um documento do Word em C# com este breve tutorial. Ele abrange etapas para configurar o ambiente de desenvolvimento, fluxo de trabalho passo a passo e um código de amostra funcional atual para converter DOCX para TXT em C#. A aplicação desenvolvida pode ser integrada em qualquer aplicação que suporte o framework .NET em Linux, MS Windows ou macOS.

Etapas para extrair texto de um documento do Word em C#

  1. Estabeleça o sistema instalando Aspose.Words for .NET para converter um arquivo DOCX em um arquivo TXT usando C#
  2. Acesse o documento Word de origem usando uma instância da classe Document
  3. Instancie a instância da classe TxtSaveOptions e defina as propriedades necessárias
  4. Salve o arquivo Word como TXT no disco usando o método Save

Essas etapas concisas em C# extraem texto de documento do Word usando algumas chamadas de API. Em primeiro lugar, carregue o arquivo do documento Word de origem do disco, seguido pela configuração das opções de exportação do arquivo TXT de saída usando a instância da classe TxtSaveOptions. Finalmente, o DOCX carregado é salvo como um arquivo TXT no disco usando o método Save.

Código para converter DOCX em TXT em C#

Para extrair texto do documento do Word, a API baseada em C# foi efetivamente usada neste trecho de código. Você pode salvar o documento do Word em TXT sem usar a instância opcional da classe TxtSaveOptions. No entanto, se você precisar personalizar ainda mais o arquivo TXT de saída, poderá usar diferentes propriedades expostas pela classe TxtSaveOptions, incluindo configuração de Encoding, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak e PrettyFormat, para citar alguns.

Este artigo explicou as informações para desenvolver um conversor Word para TXT usando C#. Se você quiser comparar os documentos PDF, consulte o artigo em Compare documentos PDF usando C#.

 Português