V tomto krátkém tutoriálu se naučíme jak číst dokument Word v C# s pomocí podrobností o konfiguraci prostředí, seznamu kroků a spustitelného kódu. Kód bude demonstrovat čtení souboru Word různými způsoby. Naučíte se, jak C# čte dokument aplikace Word, načtením souboru aplikace Word, jako je DOCX, DOC, RTF nebo HTML atd., a následným přístupem k jeho různým prvkům ke zpracování nebo zobrazení.
Kroky ke čtení dat z dokumentu Word v C#
- Nakonfigurujte prostředí projektu tak, aby používalo Aspose.Words ze správce balíčků NuGet
- Načtěte vstupní soubor DOCX do objektu třídy Document
- Získejte všechny uzly typu Paragraph z dokumentu
- Převeďte každý odstavec na řetězec a zobrazte jej na konzole
- Získejte všechny uzly typu Run z dokumentu
- Převeďte každou položku Run na řetězec a zobrazte jej spolu s názvem a velikostí písma
Tyto kroky poskytují podrobné informace potřebné ke konfiguraci prostředí a úloh, které mají být provedeny při psaní programu pro čtení souborů Word. Ukazuje, jak C# čte soubor DOCX načtením zdrojového souboru do instance třídy Document a následným přístupem ke všem jeho odstavcům pro zobrazení textu. Popisuje také čtení dat z odstavců, tabulek atd. tak, že každý segment textu s jiným stylem je oddělen nebo každá hodnota buňky tabulky je samostatně přístupná pro zpracování.s
Kód pro čtení souboru Word v C#
using System; | |
using Aspose.Words; | |
namespace ReadWordDocumentInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) // Main function to read Word document in C# | |
{ | |
// Create and load license to read DOCX without trial limits | |
License licRotateImage = new License(); | |
licRotateImage.SetLicense("Aspose.Word.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true)) | |
Console.WriteLine(para.ToString(SaveFormat.Text)); | |
// Read all the Runs in the document and display style and text | |
foreach (Run run in doc.GetChildNodes(NodeType.Run, true)) | |
{ | |
Font font = run.Font; | |
Console.WriteLine(font.Name + "," + font.Size.ToString()); | |
Console.WriteLine(run.Text); | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
Tento kód demonstruje jak číst soubor aplikace Word v C# pomocí funkce Document.GetChildNodes(), která vyžaduje načtení typu uzlu, jako je odstavec, běh, oddíl, tělo, záhlaví, zápatí, komentář atd. Jakmile je zpřístupněn podřízený uzel , musíte jej přetypovat na příslušný typ, abyste mohli používat jeho metody a vlastnosti. Dokument jsme například přečetli dvakrát, takže nejprve se zobrazí veškerý text z celého dokumentu bez ohledu na normální odstavec nebo tabulku atd., a podruhé se přečte na základě jakékoli změny stylu a typu obsahu.
Tento článek nás naučil číst soubory Wordu, ale pokud se chcete naučit převod dokumentů Wordu do HTML, přečtěte si článek na jak převést dokument Word do HTML pomocí C#.