Met deze korte tutorial kunt u {HYPERLINK1}} uit een Word-document extraheren in C#. Het omvat stappen voor het opzetten van de ontwikkelomgeving, een stapsgewijze workflow en een werkende voorbeeldcode om {HYPERLINK2}} naar TXT in C# te converteren. De ontwikkelde applicatie kan worden geïntegreerd in elke applicatie die het .NET-framework ondersteunt in Linux, MS Windows of macOS.
Stappen om tekst uit een Word-document te extraheren in C#
- Breng het systeem tot stand door Aspose.Words for .NET te installeren om een DOCX-bestand naar een TXT-bestand te converteren met C#
- Krijg toegang tot het Word-brondocument met behulp van een exemplaar van de klasse Document
- Instantieer de klasse-instantie TxtSaveOptions en stel de vereiste eigenschappen in
- Sla het Word-bestand op als TXT op de schijf met behulp van de Save-methode
Deze beknopte stappen in C# extraheren tekst uit een Word-document met behulp van een paar API-aanroepen. Laad eerst het Word-brondocumentbestand vanaf de schijf, gevolgd door het instellen van de uitvoeropties voor het TXT-bestand met behulp van de TxtSaveOptions-klasse-instantie. Ten slotte wordt de geladen DOCX opgeslagen als een TXT-bestand op de schijf met behulp van de Save-methode.
Code om DOCX naar TXT te converteren in C#
Om tekst uit een Word-document te extraheren, is op C# gebaseerde API effectief gebruikt in dit codefragment. U kunt het Word-document opslaan in TXT zonder gebruik te maken van de optionele klasse-instantie TxtSaveOptions. Als u het TXT-uitvoerbestand echter verder moet aanpassen, kunt u verschillende eigenschappen gebruiken die worden weergegeven door de klasse TxtSaveOptions, waaronder de instelling Encoding, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak en PrettyFormat, om er maar een paar te noemen.
In dit artikel wordt uitgelegd hoe u een Word naar TXT-converter kunt ontwikkelen met behulp van C#. Als u de PDF-documenten wilt vergelijken, raadpleegt u het artikel op Vergelijk PDF-documenten met C#.