Kako čitati Word dokument u C#

U ovom kratkom vodiču naučit ćemo kako čitati Word dokument u C# uz pomoć pojedinosti o konfiguraciji okruženja, popisa koraka i koda koji se može izvoditi. Kod će demonstrirati čitanje Word datoteke na različite načine. Naučit ćete kako C# čita Wordov dokument učitavanjem Wordove datoteke kao što je DOCX, DOC, RTF ili HTML itd., a zatim pristupanjem različitim elementima za obradu ili pregled.

Koraci za čitanje podataka iz Word dokumenta u C#

  1. Konfigurirajte projektno okruženje za korištenje Aspose.Words iz upravitelja paketa NuGet
  2. Učitajte ulaznu DOCX datoteku u objekt klase Document
  3. Uzmite sve čvorove tipa Paragraph iz dokumenta
  4. Pretvorite svaki odlomak u niz i prikažite ga na konzoli
  5. Uzmite sve čvorove tipa Run iz dokumenta
  6. Pretvorite svaku stavku Run u niz i prikažite je zajedno s nazivom i veličinom fonta

Ovi koraci pružaju detaljne informacije potrebne za konfiguriranje okruženja i zadataka koji će se obavljati tijekom pisanja programa za čitanje Wordovih datoteka. Pokazuje kako C# čita DOCX datoteku učitavanjem izvorne datoteke u instancu klase dokumenta i zatim pristupom svim njezinim odlomcima za prikaz teksta. Također opisuje čitanje podataka iz odlomaka, tablica itd. tako da je svaki segment teksta s različitim stilom odvojen ili se svakoj vrijednosti ćelije tablice zasebno pristupa radi obrade.

Kod za čitanje Word datoteke u C#

using System;
using Aspose.Words;
namespace ReadWordDocumentInCSharp
{
class Program
{
static void Main(string[] args) // Main function to read Word document in C#
{
// Create and load license to read DOCX without trial limits
License licRotateImage = new License();
licRotateImage.SetLicense("Aspose.Word.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
Console.WriteLine(para.ToString(SaveFormat.Text));
// Read all the Runs in the document and display style and text
foreach (Run run in doc.GetChildNodes(NodeType.Run, true))
{
Font font = run.Font;
Console.WriteLine(font.Name + "," + font.Size.ToString());
Console.WriteLine(run.Text);
}
System.Console.WriteLine("Done");
}
}
}

Ovaj kôd demonstrira kako čitati Word datoteku u C# pomoću funkcije Document.GetChildNodes() koja zahtijeva dohvaćanje vrste čvora kao što su Paragraph, Run, Section, Body, HeaderFooter, Comment, itd. Nakon što se pristupi podređenom čvoru , morate ga pretvoriti u odgovarajući tip da biste koristili njegove metode i svojstva. Na primjer, dvaput smo pročitali dokument tako da se prvo prikazuje sav tekst iz cijelog dokumenta bez obzira na uobičajeni odlomak ili tablicu itd., a drugi put se čita na temelju bilo koje promjene u stilu i vrsti sadržaja.

Ovaj nas je članak naučio čitati Wordove datoteke, no ako želite naučiti pretvaranje Wordovih dokumenata u HTML, pogledajte članak na kako pretvoriti Word dokument u HTML pomoću C#.

 Hrvatski