本指南包含有关如何使用 Python 从 PDF 中提取文本的信息。它包含设置环境的所有详细信息、步骤列表以及使用 Python 通过几个 API 调用从 PDF 中提取文本的示例代码。您将学习如何从一个或多个 PDF 文件中读取数据并显示从此过程返回的文本。
使用 Python 从 PDF 中抓取文本的步骤
- 设置环境以使用 Aspose.OCR for Python via .NET 读取 PDF
- 创建 AsposeOcr 对象以从 PDF 中提取文本
- 创建 OcrInput 类对象并将输入类型设置为 PDF
- 将 PDF 文件添加到输入集合
- 调用recognize()方法从PDF集合中读取数据
- 显示返回的集合中的识别文本
这些步骤总结了使用 Python 从 PDF 文档中提取文本的过程。创建 AsposeOcr 类对象,其中包含从 PDF 和许多其他格式识别文本的方法。使用 OcrInput 类对象将输入类型设置为 PDF 并添加 PDF 文件的输入集合。最后,调用 understand() 方法并显示返回的文本。
使用 Python 从 PDF 中提取文本的代码
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
此代码演示了如何使用 Python 开发 PDF OCR 阅读器。AsposeOcr 类包含许多属性和方法来自定义识别过程,例如您可以计算倾斜度、更正检测到的文本中的拼写以及检测矩形。如果您添加多个 PDF 文件,则 PDF 中的所有文本都将作为字符串集合返回,可以通过迭代返回的集合来显示这些字符串。
本文教了我们从 PDF 中提取文本的过程。要从图像中提取文本,请参阅 使用 Python 从图像中提取文本 上的文章。