このステップバイステップのチュートリアルでは、C#でスキャンしたPDFからテキストを抽出する方法を示します。ドキュメントをスキャンしてPDFにすると、それらのページはスキャンされた画像としてPDFファイル内に追加されます。したがって、スキャンしたPDFファイルからテキストを抽出するには、実際には、光学式文字認識(OCR)を適用してC#でPDFの画像からテキストを抽出する必要があります。
C#でスキャンしたPDFからテキストを抽出する手順
- NuGet.orgパッケージマネージャーからAspose.OCR for .NETを取得します
- Aspose.OCR namespaceへの参照を追加します
- SetLicenseメソッドを使用してライセンスコードを適用する
- AsposeOcrクラスのインスタンスを開始します
- DocumentRecognitionSettings classを使用して認識設定を指定します
- RecognizePDFメソッドを使用してすべてのPDFページを抽出します
- RecognitionTextプロパティを使用して各PDFページからテキストを取得します
上記の手順を使用すると、C#でスキャンしたPDFからテキストをすばやく簡単に読み取ることができます。以前、C#で画像からテキストを抽出するの方法を説明しました。ただし、この例は、C#でPDFからテキストを取得するのに役立ちます。
C#でスキャンしたPDFからテキストを抽出するコード
上記のC#のPDFからのテキストの取得例は、シンプルで理解しやすいものです。スキャンしたPDFファイルを読み取り、各ページからテキストを抽出するだけです。ただし、ここで理解しておくべき重要なポイントの1つは、DetectAreaプロパティです。 trueに設定すると、精度は向上しますが、PDFの処理速度は低下します。ただし、falseに設定すると、速度が向上し、精度が少し低下する場合があります。したがって、状況に基づいて2つのオプションから選択する必要があります。