Come leggere il documento di Word in C#

In questo breve tutorial impareremo come leggere il documento Word in C# con l’aiuto di dettagli sulla configurazione dell’ambiente, un elenco di passaggi e un codice eseguibile. Il codice dimostrerà la lettura del file di Word in diversi modi. Imparerai come C# legge il documento Word caricando un file Word come DOCX, DOC, RTF o HTML, ecc., e quindi accedendo ai suoi diversi elementi da elaborare o visualizzare.

Passaggi per leggere i dati dal documento di Word in C#

  1. Configura l’ambiente di progetto per l’utilizzo di Aspose.Words dal gestore di pacchetti NuGet
  2. Carica il file DOCX di input nell’oggetto classe Document
  3. Ottieni tutti i nodi di tipo Paragraph dal documento
  4. Converti ogni paragrafo in una stringa e visualizzalo sulla console
  5. Ottieni tutti i nodi di tipo Esegui dal documento
  6. Converti ogni elemento Run in una stringa e visualizzalo insieme al nome e alla dimensione del carattere

Questi passaggi forniscono le informazioni dettagliate necessarie per configurare l’ambiente e le attività da eseguire durante la scrittura di un programma di lettura di file di Word. Mostra come C# legge il file DOCX caricando il file di origine nell’istanza della classe Document e quindi accedendo a tutti i suoi paragrafi per visualizzare il testo. Descrive anche la lettura di dati da paragrafi, tabelle, ecc. in modo tale che ogni segmento di testo con uno stile diverso sia separato o che ogni valore di cella della tabella sia accessibile separatamente per l’elaborazione.s

Codice per leggere il file di Word in C#

using System;
using Aspose.Words;
namespace ReadWordDocumentInCSharp
{
class Program
{
static void Main(string[] args) // Main function to read Word document in C#
{
// Create and load license to read DOCX without trial limits
License licRotateImage = new License();
licRotateImage.SetLicense("Aspose.Word.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
Console.WriteLine(para.ToString(SaveFormat.Text));
// Read all the Runs in the document and display style and text
foreach (Run run in doc.GetChildNodes(NodeType.Run, true))
{
Font font = run.Font;
Console.WriteLine(font.Name + "," + font.Size.ToString());
Console.WriteLine(run.Text);
}
System.Console.WriteLine("Done");
}
}
}

Questo codice mostra come leggere il file Word in C# usando la funzione Document.GetChildNodes() che richiede un tipo di nodo da recuperare come Paragraph, Run, Section, Body, HeaderFooter, Comment, ecc. Una volta che si accede al nodo figlio , devi eseguirne il cast al rispettivo tipo per usarne i metodi e le proprietà. Ad esempio, abbiamo letto il documento due volte in modo tale che prima tutto il testo dell’intero documento venga visualizzato indipendentemente da un normale paragrafo o una tabella, ecc, e la seconda volta venga letto in base a qualsiasi cambiamento di stile e tipo di contenuto.

Questo articolo ci ha insegnato a leggere i file Word, tuttavia se vuoi imparare la conversione di documenti Word in HTML, fai riferimento all’articolo su come convertire un documento Word in HTML usando C#.

 Italiano