Puede Extraer Text de un documento de Word en C# con este breve tutorial. Incluye pasos para configurar el entorno de desarrollo, flujo de trabajo paso a paso y un código de muestra funcional presente para convertir DOCX a TXT en C#. La aplicación desarrollada se puede integrar en cualquier aplicación que admita el marco .NET en Linux, MS Windows o macOS.
Pasos para extraer texto de un documento de Word en C#
- Establezca el sistema instalando Aspose.Words for .NET para convertir un archivo DOCX en un archivo TXT usando C#
- Acceda al documento de Word de origen utilizando una instancia de la clase Document
- Cree una instancia de la clase TxtSaveOptions y establezca las propiedades requeridas
- Guarde el archivo de Word como TXT en el disco usando el método Guardar
Estos pasos concisos en C# extraen texto de un documento de Word mediante algunas llamadas API. En primer lugar, cargue el archivo del documento de Word de origen desde el disco, y luego configure las opciones de exportación del archivo TXT de salida utilizando la instancia de clase TxtSaveOptions. Finalmente, el DOCX cargado se guarda como un archivo TXT en el disco usando el método Guardar.
Código para convertir DOCX a TXT en C#
Para extraer texto de un documento de Word, la API basada en C# se ha utilizado eficazmente en este fragmento de código. Puede guardar el documento de Word en TXT sin utilizar la instancia de clase opcional TxtSaveOptions. Sin embargo, si necesita personalizar aún más el archivo TXT de salida, puede usar diferentes propiedades expuestas por la clase TxtSaveOptions, incluida la configuración de Codificación, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak y PrettyFormat, por nombrar algunas.
Este artículo explica la información para desarrollar un convertidor de Word a TXT usando C#. Si desea comparar los documentos PDF, consulte el artículo en Comparar documentos PDF usando C#.