Você pode Extrair Text de um documento do Word em C# com este breve tutorial. Ele abrange etapas para configurar o ambiente de desenvolvimento, fluxo de trabalho passo a passo e um código de amostra funcional atual para converter DOCX para TXT em C#. A aplicação desenvolvida pode ser integrada em qualquer aplicação que suporte o framework .NET em Linux, MS Windows ou macOS.
Etapas para extrair texto de um documento do Word em C#
- Estabeleça o sistema instalando Aspose.Words for .NET para converter um arquivo DOCX em um arquivo TXT usando C#
- Acesse o documento Word de origem usando uma instância da classe Document
- Instancie a instância da classe TxtSaveOptions e defina as propriedades necessárias
- Salve o arquivo Word como TXT no disco usando o método Save
Essas etapas concisas em C# extraem texto de documento do Word usando algumas chamadas de API. Em primeiro lugar, carregue o arquivo do documento Word de origem do disco, seguido pela configuração das opções de exportação do arquivo TXT de saída usando a instância da classe TxtSaveOptions. Finalmente, o DOCX carregado é salvo como um arquivo TXT no disco usando o método Save.
Código para converter DOCX em TXT em C#
using Aspose.Words; | |
using Aspose.Words.Saving; | |
namespace Testword | |
{ | |
public class WordToText | |
{ | |
public static void ConvertWordToText() | |
{ | |
string FilePath = @"/Users/Documents/KnowledgeBase/TestData/"; | |
// Applying product license to extract text from Word document | |
License wordsLiense = new License(); | |
wordsLiense.SetLicense(FilePath + "Conholdate.Total.Product.Family.lic"); | |
// Load the Word file for text conversion | |
Document sourceWordDocx = new Document(FilePath + "Test1.docx"); | |
// Optional Text options | |
TxtSaveOptions txtOpts = new TxtSaveOptions(); | |
txtOpts.MaxCharactersPerLine = 100; | |
txtOpts.SaveFormat = SaveFormat.Text; | |
txtOpts.PrettyFormat = true; | |
sourceWordDocx.Save(FilePath + "ExtractedText.txt", txtOpts); | |
} | |
} | |
} |
Para extrair texto do documento do Word, a API baseada em C# foi efetivamente usada neste trecho de código. Você pode salvar o documento do Word em TXT sem usar a instância opcional da classe TxtSaveOptions. No entanto, se você precisar personalizar ainda mais o arquivo TXT de saída, poderá usar diferentes propriedades expostas pela classe TxtSaveOptions, incluindo configuração de Encoding, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak e PrettyFormat, para citar alguns.
Este artigo explicou as informações para desenvolver um conversor Word para TXT usando C#. Se você quiser comparar os documentos PDF, consulte o artigo em Compare documentos PDF usando C#.