Extrahujte text z dokumentu Word v C#

Pomocí tohoto krátkého návodu můžete Extrahovat Text z dokumentu Word v C#. Zahrnuje kroky pro nastavení vývojového prostředí, pracovní postup krok za krokem a současný funkční ukázkový kód pro převod DOCX na TXT v C#. Vyvinutou aplikaci lze integrovat do libovolné aplikace podporující .NET framework v Linuxu, MS Windows nebo macOS.

Kroky k extrahování textu z dokumentu Word v C#

  1. Vytvořte systém instalací Aspose.Words for .NET pro převod souboru DOCX na soubor TXT pomocí C#
  2. Získejte přístup ke zdrojovému dokumentu aplikace Word pomocí instance třídy Document
  3. Vytvořte instanci instance třídy TxtSaveOptions a nastavte požadované vlastnosti
  4. Uložte soubor Word jako TXT na disk pomocí metody Uložit

Tyto stručné kroky v C# extrahují text z dokumentu Word pomocí několika volání API. Nejprve načtěte zdrojový soubor dokumentu Word z disku a poté nastavte možnosti exportu výstupního souboru TXT pomocí instance třídy TxtSaveOptions. Nakonec se načtený DOCX uloží jako TXT soubor na disk pomocí metody Save.

Kód pro převod DOCX na TXT v C#

K extrahování textu z dokumentu Word bylo v tomto fragmentu kódu efektivně použito rozhraní API založené na C#. Dokument aplikace Word můžete uložit do formátu TXT bez použití volitelné instance třídy TxtSaveOptions. Pokud byste však měli dále upravit výstupní soubor TXT, můžete použít různé vlastnosti vystavené třídou TxtSaveOptions včetně nastavení Encoding, ForcePageBreaks, MaxCharactersPerLine, OdsekBreak a PrettyFormat, abychom jmenovali alespoň některé.

V tomto článku jsou vysvětleny informace pro vývoj převaděče z Wordu na TXT pomocí C#. Pokud chcete porovnat dokumenty PDF, přečtěte si článek na Porovnání dokumentů PDF pomocí C#.

 Čeština