I den här korta handledningen kommer vi att lära oss hur man läser Word-dokument i C# med hjälp av detaljer om miljökonfiguration, en lista med steg och en körbar kod. Koden kommer att demonstrera läsning av Word-fil på olika sätt. Du kommer att lära dig hur C# läser Word-dokument genom att ladda en Word-fil som DOCX, DOC, RTF eller HTML, etc, och sedan komma åt dess olika element för att bearbeta eller visa.
Steg för att läsa data från Word-dokument i C#
- Konfigurera projektmiljön för att använda Aspose.Words från NuGet-pakethanteraren
- Ladda in DOCX-filen i klassobjektet Document
- Hämta alla noder av typen Paragraph från dokumentet
- Konvertera varje stycke till en sträng och visa den på konsolen
- Hämta alla körtypsnoder från dokumentet
- Konvertera varje Kör-objekt till en sträng och visa det tillsammans med teckensnittsnamnet och storleken
Dessa steg ger den detaljerade information som krävs för att konfigurera miljön och uppgifter som ska utföras när du skriver ett Word-filläsarprogram. Den visar hur C# läser DOCX-filen genom att ladda källfilen i instansklassen Document och sedan komma åt alla dess stycken för att visa texten. Den beskriver också läsning av data från stycken, tabeller, etc. så att varje textsegment med en annan stil separeras eller att varje tabellcellvärde nås separat för bearbetning.s
Kod för att läsa Word-fil i C#
Den här koden visar hur man läser Word-fil i C# genom att använda funktionen Document.GetChildNodes() som kräver att en typ av nod hämtas som Paragraph, Run, Section, Body, HeaderFooter, Comment, etc. När den underordnade noden har nåtts , måste du gjuta den till respektive typ för att använda dess metoder och egenskaper. Till exempel har vi läst dokumentet två gånger så att först all text från hela dokumentet visas oberoende av ett normalt stycke eller en tabell, etc, och andra gången läses det baserat på eventuella förändringar i stil och innehållstyp.
Den här artikeln har lärt oss att läsa Word-filer, men om du vill lära dig omvandlingen av Word-dokument till HTML, se artikeln om hur man konverterar Word-dokument till HTML med C#.