使用 Java 将扫描的 PDF 转换为可编辑 PDF

本简短教程指导如何 使用 Java 将扫描的 PDF 转换为可编辑的 PDF。它包括 IDE 配置的细节、步骤列表以及示例代码,演示 使用 Java 将扫描的 PDF 转换为可搜索的 PDF。您将获得自定义扫描图像并将内容转换为可读文本的详细信息。

使用 Java 使 PDF 可读的步骤

  1. 将 IDE 设置为使用 Aspose.Total for Java 将扫描的 PDF 转换为可搜索的 PDF
  2. 实例化相应的产品许可证,以避免输出中出现水印
  3. 使用 AsposeOCR 类创建识别引擎的实例
  4. 使用 OcrInput 类创建输入实例,并将源扫描的 PDF 加载到其中
  5. 创建 RecognitionSettings 实例,以在图像扫描期间设置自定义参数
  6. 调用 AsposeOCR.Recognize() 方法,从扫描的 PDF 中获取数据并将其存储在临时 PDF 中
  7. 将中间 PDF 加载到 Aspose.PDF 的 Document 类对象中,并在其中设置元数据
  8. 将最终的 PDF 保存到磁盘,并包含可搜索的文本和元数据

这些步骤描述了如何使用 Java 将 PDF 图像转换为 PDF 文本。创建识别引擎对象,通过将扫描的 PDF 文件添加到 OcrInput 对象来准备输入文件,在 RecognitionSettings 对象中定义参数,调用 Recognize() 方法进行扫描并将结果保存到中间 PDF 文件。最后,使用 Aspose.PDF.Document 对象加载中间 PDF 文件,并在保存最终 PDF 文件之前添加元数据或进一步格式化。

使用 Java 将 PDF 图片转换为文本的代码

此代码演示了如何 使用 Java 将 PDF 转换为可搜索的 PDF。您可以在扫描 PDF 时设置特定的检测语言,设置标志以自动检测语言,限制识别特定字符或将您希望 OCR 忽略的字符加入黑名单。若有需要,还可以选择源文档区域/布局检测策略。

本文教会了我们将 PDF 转换为可选文本 PDF 的过程。要将 PDF 表单中的数据导出到 Excel,请参阅文章 使用 Java 将 PDF 表单数据导出到 Excel.

 简体中文