如何在 Java 中将 PDF 转换为文本

这个简短的教程详细介绍了如何通过加载输入 PDF 文档并将其保存为 Text 格式来将 PDF 转换为 Java 中的文本。此外,与源 PDF 文件相比,可以自定义使用 Java PDF 到文本转换器 来控制是否希望输出带有或不带格式的文本。

在 Java 中将 PDF 转换为文本的步骤

  1. 通过从 Maven 存储库中添加对 Aspose.PDF 的引用来配置您的应用程序,以将 PDF 转换为文本文件
  2. 使用 Document 类对象加载输入 PDF 文件,以将 PDF 转换为文本文件
  3. 创建一个 TextAbsorber 类的对象来设置文本提取选项
  4. 将提取的文本写入文本文件

上述步骤详细说明了开发基于 PDF 到 Text Java 的转换器应用程序的过程。第一步,使用 Document 类实例加载输入的 PDF 文档,然后选择是否需要带格式的文本。最后,您可以使用文本字符串写入文件或根据您的要求进一步处理它。

在 Java 中将 PDF 转换为文本的代码

此示例代码演示了通过使用 Java 将 PDF 转换为文本 并通过使用不同的选项(例如 TextAbsorber 类具有多个构造函数)进行完全控制,您可以在其中使用 TextSearchOptions ,它提供了将源 PDF 中的阴影文本转换为单独文本的选项。同样,您可以设置标志以仅在绑定的页面内搜索文本,或设置矩形以仅在所有页面中从指定区域搜索文本。

在这里,我们学习了如何将 PDF 转换为 Java 中的文本以及代码片段。如果您想了解将 PDF 转换为 Word 的过程,请参阅 如何在 Java 中将 PDF 转换为 Word 上的文章。

 简体中文