Jak číst dokument Word v C#

V tomto krátkém tutoriálu se naučíme jak číst dokument Word v C# s pomocí podrobností o konfiguraci prostředí, seznamu kroků a spustitelného kódu. Kód bude demonstrovat čtení souboru Word různými způsoby. Naučíte se, jak C# čte dokument aplikace Word, načtením souboru aplikace Word, jako je DOCX, DOC, RTF nebo HTML atd., a následným přístupem k jeho různým prvkům ke zpracování nebo zobrazení.

Kroky ke čtení dat z dokumentu Word v C#

  1. Nakonfigurujte prostředí projektu tak, aby používalo Aspose.Words ze správce balíčků NuGet
  2. Načtěte vstupní soubor DOCX do objektu třídy Document
  3. Získejte všechny uzly typu Paragraph z dokumentu
  4. Převeďte každý odstavec na řetězec a zobrazte jej na konzole
  5. Získejte všechny uzly typu Run z dokumentu
  6. Převeďte každou položku Run na řetězec a zobrazte jej spolu s názvem a velikostí písma

Tyto kroky poskytují podrobné informace potřebné ke konfiguraci prostředí a úloh, které mají být provedeny při psaní programu pro čtení souborů Word. Ukazuje, jak C# čte soubor DOCX načtením zdrojového souboru do instance třídy Document a následným přístupem ke všem jeho odstavcům pro zobrazení textu. Popisuje také čtení dat z odstavců, tabulek atd. tak, že každý segment textu s jiným stylem je oddělen nebo každá hodnota buňky tabulky je samostatně přístupná pro zpracování.s

Kód pro čtení souboru Word v C#

using System;
using Aspose.Words;
namespace ReadWordDocumentInCSharp
{
class Program
{
static void Main(string[] args) // Main function to read Word document in C#
{
// Create and load license to read DOCX without trial limits
License licRotateImage = new License();
licRotateImage.SetLicense("Aspose.Word.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
Console.WriteLine(para.ToString(SaveFormat.Text));
// Read all the Runs in the document and display style and text
foreach (Run run in doc.GetChildNodes(NodeType.Run, true))
{
Font font = run.Font;
Console.WriteLine(font.Name + "," + font.Size.ToString());
Console.WriteLine(run.Text);
}
System.Console.WriteLine("Done");
}
}
}

Tento kód demonstruje jak číst soubor aplikace Word v C# pomocí funkce Document.GetChildNodes(), která vyžaduje načtení typu uzlu, jako je odstavec, běh, oddíl, tělo, záhlaví, zápatí, komentář atd. Jakmile je zpřístupněn podřízený uzel , musíte jej přetypovat na příslušný typ, abyste mohli používat jeho metody a vlastnosti. Dokument jsme například přečetli dvakrát, takže nejprve se zobrazí veškerý text z celého dokumentu bez ohledu na normální odstavec nebo tabulku atd., a podruhé se přečte na základě jakékoli změny stylu a typu obsahu.

Tento článek nás naučil číst soubory Wordu, ale pokud se chcete naučit převod dokumentů Wordu do HTML, přečtěte si článek na jak převést dokument Word do HTML pomocí C#.

 Čeština