さまざまな種類のドキュメントをプログラムで読むことは、最近では一般的な方法です。このハウツーガイドでは、以下の簡単な手順に従って、C#でPDFファイルを読み取る方法を学習します。
C#でPDFファイルを読み取る手順
- Visual Studioで空のC#コンソールアプリケーションを作成します
- NuGet.orgからインストールして、Aspose.PDF for .NETへの参照を追加します
- Documentオブジェクトに既存のPDFファイルをロードします
- TextAbsorberクラスを初期化してPDFファイルを読み取ります
- PDFテキストを抽出し、コンソール出力に書き込みます
- PDFページResourcesを繰り返して画像を検索します
- 見つかった画像を使用してFileStreamオブジェクトを作成します
- イメージをローカルディスクに保存します
以下のコードスニペットは、C#でPDFファイルを開いて読み取る方法を説明しています。それを使用して、PDFファイルからテキストを読んだり画像を抽出したりできるようになります。 APIは、PDFファイルからテキストを読み取るために使用されるTextAbsorberクラスを提供し、Textオブジェクトを介して抽出された結果を達成できます。以下に示すように、PDFページのリソースをループすることにより、画像を検索してローカルディスクに保存することもできます。
C#でPDFファイルを読み取るためのコード
前のトピックでは、C#で大きなPDFファイルを処理する方法を学びました。上記の情報とコード例を使用すると、テキストと画像を抽出するためにC#でPDFファイルを開いて読み取ることができます。