Wyodrębnij tekst z dokumentu Word w C#

Dzięki temu krótkiemu samouczkowi możesz wyodrębnić Text z dokumentu programu Word w języku C#. Obejmuje kroki konfigurowania środowiska programistycznego, przepływ pracy krok po kroku i działający przykładowy kod do konwertowania DOCX na TXT w języku C#. Opracowaną aplikację można zintegrować z dowolną aplikacją obsługującą framework .NET w systemie Linux, MS Windows lub macOS.

Kroki, aby wyodrębnić tekst z dokumentu programu Word w języku C#

  1. Skonfiguruj system, instalując Aspose.Words for .NET, aby przekonwertować plik DOCX na plik TXT przy użyciu języka C#
  2. Uzyskaj dostęp do źródłowego dokumentu programu Word przy użyciu instancji klasy Document
  3. Utwórz instancję klasy TxtSaveOptions i ustaw wymagane właściwości
  4. Zapisz plik programu Word jako TXT na dysku, korzystając z metody Zapisz

Te zwięzłe kroki w C# wyodrębniają tekst z dokumentu programu Word przy użyciu kilku wywołań API. Najpierw załaduj z dysku źródłowy plik dokumentu Word, a następnie ustaw opcje eksportu wyjściowego pliku TXT za pomocą instancji klasy TxtSaveOptions. Na koniec załadowany plik DOCX jest zapisywany na dysku jako plik TXT przy użyciu metody Save.

Kod do konwersji DOCX na TXT w C#

Aby wyodrębnić tekst z dokumentu programu Word, w tym fragmencie kodu skutecznie wykorzystano interfejs API oparty na C#. Możesz zapisać dokument programu Word w formacie TXT bez użycia opcjonalnej instancji klasy TxtSaveOptions. Jeśli jednak konieczne jest dalsze dostosowanie wyjściowego pliku TXT, można użyć różnych właściwości udostępnianych przez klasę TxtSaveOptions, w tym ustawień Encoding, ForcePageBreaks, MaxCharactersPerLine, ParagraphBreak i PrettyFormat, żeby wymienić tylko kilka.

W tym artykule wyjaśniono informacje potrzebne do opracowania konwertera Word na TXT przy użyciu języka C#. Jeśli chcesz porównać dokumenty PDF, zapoznaj się z artykułem na temat Porównaj dokumenty PDF przy użyciu języka C#.

 Polski