U ovom kratkom vodiču naučit ćemo kako čitati Word dokument u C# uz pomoć pojedinosti o konfiguraciji okruženja, popisa koraka i koda koji se može izvoditi. Kod će demonstrirati čitanje Word datoteke na različite načine. Naučit ćete kako C# čita Wordov dokument učitavanjem Wordove datoteke kao što je DOCX, DOC, RTF ili HTML itd., a zatim pristupanjem različitim elementima za obradu ili pregled.
Koraci za čitanje podataka iz Word dokumenta u C#
- Konfigurirajte projektno okruženje za korištenje Aspose.Words iz upravitelja paketa NuGet
- Učitajte ulaznu DOCX datoteku u objekt klase Document
- Uzmite sve čvorove tipa Paragraph iz dokumenta
- Pretvorite svaki odlomak u niz i prikažite ga na konzoli
- Uzmite sve čvorove tipa Run iz dokumenta
- Pretvorite svaku stavku Run u niz i prikažite je zajedno s nazivom i veličinom fonta
Ovi koraci pružaju detaljne informacije potrebne za konfiguriranje okruženja i zadataka koji će se obavljati tijekom pisanja programa za čitanje Wordovih datoteka. Pokazuje kako C# čita DOCX datoteku učitavanjem izvorne datoteke u instancu klase dokumenta i zatim pristupom svim njezinim odlomcima za prikaz teksta. Također opisuje čitanje podataka iz odlomaka, tablica itd. tako da je svaki segment teksta s različitim stilom odvojen ili se svakoj vrijednosti ćelije tablice zasebno pristupa radi obrade.
Kod za čitanje Word datoteke u C#
using System; | |
using Aspose.Words; | |
namespace ReadWordDocumentInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) // Main function to read Word document in C# | |
{ | |
// Create and load license to read DOCX without trial limits | |
License licRotateImage = new License(); | |
licRotateImage.SetLicense("Aspose.Word.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true)) | |
Console.WriteLine(para.ToString(SaveFormat.Text)); | |
// Read all the Runs in the document and display style and text | |
foreach (Run run in doc.GetChildNodes(NodeType.Run, true)) | |
{ | |
Font font = run.Font; | |
Console.WriteLine(font.Name + "," + font.Size.ToString()); | |
Console.WriteLine(run.Text); | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
Ovaj kôd demonstrira kako čitati Word datoteku u C# pomoću funkcije Document.GetChildNodes() koja zahtijeva dohvaćanje vrste čvora kao što su Paragraph, Run, Section, Body, HeaderFooter, Comment, itd. Nakon što se pristupi podređenom čvoru , morate ga pretvoriti u odgovarajući tip da biste koristili njegove metode i svojstva. Na primjer, dvaput smo pročitali dokument tako da se prvo prikazuje sav tekst iz cijelog dokumenta bez obzira na uobičajeni odlomak ili tablicu itd., a drugi put se čita na temelju bilo koje promjene u stilu i vrsti sadržaja.
Ovaj nas je članak naučio čitati Wordove datoteke, no ako želite naučiti pretvaranje Wordovih dokumenata u HTML, pogledajte članak na kako pretvoriti Word dokument u HTML pomoću C#.