Extrahera text från Word-dokument i C#

Du kan Extrahera Text från Word-dokument i C# med denna korta handledning. Den omfattar steg för att ställa in utvecklingsmiljön, steg-för-steg-arbetsflöde och en aktuell fungerande exempelkod för att konvertera DOCX till TXT i C#. Den utvecklade applikationen kan integreras i alla applikationer som stöder .NET-ramverket i Linux, MS Windows eller macOS.

Steg för att extrahera text från Word-dokument i C#

  1. Etablera systemet genom att installera Aspose.Words for .NET för att konvertera en DOCX-fil till en TXT-fil med C#
  2. Få åtkomst till Word-källdokumentet med en instans av klassen Document
  3. Instantiera klassinstansen TxtSaveOptions och ställ in de nödvändiga egenskaperna
  4. Spara Word-filen som TXT på disken med hjälp av Spara-metoden

Dessa kortfattade steg i C# extraherar text från Word-dokument med några API-anrop. Först laddar du källfilen för Word-dokumentet från disken, som sedan följs av att ställa in alternativen för export av TXT-filen med hjälp av klassen TxtSaveOptions. Slutligen sparas den inlästa DOCX som en TXT-fil på disken med hjälp av Spara-metoden.

Kod för att konvertera DOCX till TXT i C#

Att extrahera text från Word-dokument C#-baserat API har effektivt använts i detta kodavsnitt. Du kan spara Word-dokumentet till TXT utan att använda den valfria klassinstansen TxtSaveOptions. Men om du borde anpassa TXT-utdatafilen ytterligare kan du använda olika egenskaper som exponeras av klassen TxtSaveOptions inklusive inställning av kodning, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak och PrettyFormat för att nämna några.

Den här artikeln har förklarat informationen för att utveckla en Word till TXT-omvandlare med C#. Om du vill jämföra PDF-dokumenten, se artikeln om Jämför PDF-dokument med C#.

 Svenska