本简短教程指导如何 使用 Java 将扫描的 PDF 转换为可编辑的 PDF。它包括 IDE 配置的细节、步骤列表以及示例代码,演示 使用 Java 将扫描的 PDF 转换为可搜索的 PDF。您将获得自定义扫描图像并将内容转换为可读文本的详细信息。
使用 Java 使 PDF 可读的步骤
- 将 IDE 设置为使用 Aspose.Total for Java 将扫描的 PDF 转换为可搜索的 PDF
- 实例化相应的产品许可证,以避免输出中出现水印
- 使用 AsposeOCR 类创建识别引擎的实例
- 使用 OcrInput 类创建输入实例,并将源扫描的 PDF 加载到其中
- 创建 RecognitionSettings 实例,以在图像扫描期间设置自定义参数
- 调用 AsposeOCR.Recognize() 方法,从扫描的 PDF 中获取数据并将其存储在临时 PDF 中
- 将中间 PDF 加载到 Aspose.PDF 的 Document 类对象中,并在其中设置元数据
- 将最终的 PDF 保存到磁盘,并包含可搜索的文本和元数据
这些步骤描述了如何使用 Java 将 PDF 图像转换为 PDF 文本。创建识别引擎对象,通过将扫描的 PDF 文件添加到 OcrInput 对象来准备输入文件,在 RecognitionSettings 对象中定义参数,调用 Recognize() 方法进行扫描并将结果保存到中间 PDF 文件。最后,使用 Aspose.PDF.Document 对象加载中间 PDF 文件,并在保存最终 PDF 文件之前添加元数据或进一步格式化。
使用 Java 将 PDF 图片转换为文本的代码
此代码演示了如何 使用 Java 将 PDF 转换为可搜索的 PDF。您可以在扫描 PDF 时设置特定的检测语言,设置标志以自动检测语言,限制识别特定字符或将您希望 OCR 忽略的字符加入黑名单。若有需要,还可以选择源文档区域/布局检测策略。
本文教会了我们将 PDF 转换为可选文本 PDF 的过程。要将 PDF 表单中的数据导出到 Excel,请参阅文章 使用 Java 将 PDF 表单数据导出到 Excel.