En este breve tutorial, aprenderemos cómo leer un documento de Word en C# con la ayuda de detalles sobre la configuración del entorno, una lista de pasos y un código ejecutable. El código demostrará la lectura del archivo de Word de diferentes maneras. Aprenderá cómo C# lee un documento de Word cargando un archivo de Word como DOCX, DOC, RTF o HTML, etc. y luego accediendo a sus diferentes elementos para procesar o ver.
Pasos para leer datos de un documento de Word en C#
- Configure el entorno del proyecto para usar Aspose.Words del administrador de paquetes NuGet
- Cargue el archivo DOCX de entrada en el objeto de clase Document
- Obtenga todos los nodos de tipo Paragraph del documento
- Convierta cada párrafo en una cadena y muéstrelo en la consola
- Obtenga todos los nodos de tipo Ejecutar del documento
- Convierta cada elemento Ejecutar en una cadena y muéstrelo junto con el nombre y el tamaño de la fuente
Estos pasos proporcionan la información detallada necesaria para configurar el entorno y las tareas que se realizarán mientras se escribe un programa lector de archivos de Word. Muestra cómo C# lee el archivo DOCX cargando el archivo fuente en la instancia de la clase Document y luego accediendo a todos sus párrafos para mostrar el texto. También describe la lectura de datos de párrafos, tablas, etc., de modo que cada segmento de texto con un estilo diferente se separe o se acceda por separado a cada valor de celda de la tabla para su procesamiento.
Código para leer archivos de Word en C#
Este código demuestra cómo leer un archivo de Word en C# usando la función Document.GetChildNodes() que requiere que se obtenga un tipo de nodo como Párrafo, Ejecutar, Sección, Cuerpo, Encabezado, Pie de página, Comentario, etc. Una vez que se accede al nodo secundario , debe convertirlo al tipo respectivo para usar sus métodos y propiedades. Por ejemplo, hemos leído el documento dos veces, de modo que primero se muestra todo el texto del documento completo independientemente de un párrafo normal o una tabla, etc., y la segunda vez se lee en función de cualquier cambio de estilo y tipo de contenido.
Este artículo nos ha enseñado a leer archivos de Word; sin embargo, si desea aprender a convertir documentos de Word a HTML, consulte el artículo sobre cómo convertir un documento de Word a HTML usando C#.