C# を使用して PowerPoint からテキストを抽出する

この短いガイドでは、C# を使用して PowerPoint からテキストを抽出します。IDE の設定方法、手順の一覧、そして PowerPoint をテキストコンバータに変換する C# のサンプルコードが含まれています。プレゼンテーション/スライド内のさまざまなコンテンツにアクセスし、テキストを取得する方法を学びます。

C# を使用して PowerPoint をテキストに変換する手順

  1. PPTX を TXT に変換するために Aspose.Slides for .NET を使用するように環境を設定する
  2. 定義された入力ファイルパスを使用し、Presentation クラスで PPTX ファイルをメモリに読み込む
  3. SlideUtil.GetAllTextFrames() メソッドを呼び出し、すべてのスライドからテキストフレームを抽出します
  4. マスターとレイアウトスライドからテキストフレームを抽出するフラグを設定し、さらに
  5. 抽出されたテキストコンテンツを保持するための StringBuilder オブジェクトを宣言する
  6. 各テキストフレームを解析し、その段落にアクセスする
  7. 各段落をループし、テキスト部分を改行で追加してStringBuilderに格納する
  8. ディスク上のTXTファイルに最終的に蓄積されたテキストを書き込む

これらの手順は、C# を使用した PPTX からテキストへのコンバータ の開発を説明します。プレゼンテーションをロードし、すべてのテキストフレームのコレクションを取得し、StringBuilder オブジェクトを作成し、コレクション内の各フレームを反復処理します。各フレームについて、段落コレクションにアクセスし、各段落で部分のコレクションを取得し、部分からテキストを取得して StringBuilder オブジェクトに追加します。

C# を使用して PPTX を TXT に変換するコード

このコードは C# を使用して PPTX からテキストを抽出する 方法を示しています。PresentationFactory.Instance を使用してプレゼンテーション全体からテキストを取得する別の簡単な方法があります。GetPresentationText(inputPath, TextExtractionArrangingMode.Unarranged) メソッドは各スライドの内容を UTF-8 エンコードされた出力ファイルに書き込みます。各スライドについて、本文テキスト、スピーカーノート、マスタースライドテキスト、レイアウトテキストの 4 つのテキストコンポーネントが書き込まれます。

この記事では、プレゼンテーションからすべてのテキストを抽出する方法を学びました。PowerPoint を MP4 ビデオに変換するには、記事 C# を使用して PowerPoint をビデオに変換 を参照してください。

 日本語