如何在 C# 中从扫描的 PDF 中提取文本

本分步教程向您展示了如何在 C# 中从扫描的 PDF 中提取文本。当您将文档扫描成 PDF 时,这些页面将作为扫描图像添加到 PDF 文件中。因此,为了从扫描的 PDF 文件中提取文本,您实际上必须通过应用光学字符识别 (OCR) 从 C# 中的 PDF 中的图像中提取文本。

在 C# 中从扫描的 PDF 中提取文本的步骤

  1. 从 NuGet.org 包管理器获取 Aspose.OCR for .NET
  2. 添加对 Aspose.OCR namespace 的引用
  3. 使用 SetLicense 方法应用许可证代码
  4. 启动 AsposeOcr 类的实例
  5. 使用 DocumentRecognitionSettings class 指定识别设置
  6. 使用 RecognizePDF 方法提取所有 PDF 页面
  7. 使用 RecognitionText 属性从每个 PDF 页面获取文本

借助上述步骤,您可以使用 C# 快速轻松地从扫描的 PDF 中读取文本。之前,我们向您展示了如何在 C# 中从图像中提取文本。但是,此示例可帮助您在 C# 中从 PDF 中获取文本。

在 C# 中从扫描的 PDF 中提取文本的代码

上面的 C# 从 PDF 中获取文本的例子简单易懂。我们只是阅读扫描的 PDF 文件,然后从每一页中提取文本。但是,这里要理解的重要一点是 DetectArea 属性。如果您将其设置为 true,那么它将为您提供更高的准确性,但会降低处理 PDF 的速度。但是,通过将其设置为 false,速度会有所提高,但准确性可能会有所降低。因此,您必须根据自己的情况在两个选项之间进行选择。

 简体中文