使用 Python 从 PDF 中提取文本

本指南包含有关如何使用 Python PDF 中提取文本的信息。它包含设置环境的所有详细信息、步骤列表以及使用 Python 通过几个 API 调用从 PDF 中提取文本的示例代码。您将学习如何从一个或多个 PDF 文件中读取数据并显示从此过程返回的文本。

使用 Python 从 PDF 中抓取文本的步骤

  1. 设置环境以使用 Aspose.OCR for Python via .NET 读取 PDF
  2. 创建 AsposeOcr 对象以从 PDF 中提取文本
  3. 创建 OcrInput 类对象并将输入类型设置为 PDF
  4. 将 PDF 文件添加到输入集合
  5. 调用recognize()方法从PDF集合中读取数据
  6. 显示返回的集合中的识别文本

这些步骤总结了使用 Python 从 PDF 文档中提取文本的过程。创建 AsposeOcr 类对象,其中包含从 PDF 和许多其他格式识别文本的方法。使用 OcrInput 类对象将输入类型设置为 PDF 并添加 PDF 文件的输入集合。最后,调用 understand() 方法并显示返回的文本。

使用 Python 从 PDF 中提取文本的代码

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

此代码演示了如何使用 Python 开发 PDF OCR 阅读器。AsposeOcr 类包含许多属性和方法来自定义识别过程,例如您可以计算倾斜度、更正检测到的文本中的拼写以及检测矩形。如果您添加多个 PDF 文件,则 PDF 中的所有文本都将作为字符串集合返回,可以通过迭代返回的集合来显示这些字符串。

本文教了我们从 PDF 中提取文本的过程。要从图像中提取文本,请参阅 使用 Python 从图像中提取文本 上的文章。

 简体中文