使用 Java 将 PDF 表单数据导出到 Excel

本教程介绍了 如何使用 Java 将 PDF 表单数据导出到 Excel。它涵盖了 IDE 设置、详细步骤以及 如何使用 Java 从可填写的 PDF 提取数据到 Excel 的示例代码。您将学习如何先将 PDF 表单数据导出为 XML 文件,然后将 XML 文件加载到 Workbook 以保存为 XLSX 文件。

使用 Java 将 PDF 字段导出到 Excel 的步骤

  1. 配置 IDE,以便在 Java 中使用 Aspose.PDFAspose.Cells 进行 PDF 表单数据导出。
  2. 使用 Form 对象加载包含表单字段的 PDF 文件。
  3. 调用 Form.bindPdf() 方法,将 PDF 绑定到 Form 对象。
  4. 创建 FileOutputStream 以保存 XML 输出文件。
  5. 调用 Form.exportXml() 方法提取表单数据并写入 XML 文件。
  6. 使用 XmlLoadOptions 对象加载 XML 文件。
  7. 加载 Workbook 类对象,打开 XML 文件并保存为 XLSX 文件。

上述步骤总结了 如何使用 Java 提取 PDF 字段并导出到 Excel。首先,使用 Aspose.PDF API 的 Form.exportXml() 方法将 PDF 表单数据转换为 XML 文件。然后,使用 Aspose.Cells API 加载 XML 文件到 Workbook 对象,并将其保存为 Excel XLSX 格式。

使用 Java 提取 PDF 表单数据到 Excel 的代码示例

import com.aspose.pdf.Document;
import com.aspose.pdf.Field;
import com.aspose.pdf.License;
import com.aspose.pdf.WidgetAnnotation;
import com.aspose.pdf.facades.Form;
import com.aspose.cells.Workbook;
import com.aspose.cells.XmlLoadOptions;
import com.aspose.cells.SaveFormat;
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileInputStream;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws Exception {
// Set license for Aspose.PDF
License pdfLic = new License();
try {
pdfLic.setLicense("license.lic");
} catch (Exception e) {
e.printStackTrace();
}
// Set license for Aspose.Cells
com.aspose.cells.License cellsLic = new com.aspose.cells.License();
try {
cellsLic.setLicense("license.lic");
} catch (Exception e) {
e.printStackTrace();
}
ExportDataToXml();
ConvertXmlToXlsx();
}
public static void ExportDataToXml() {
try {
Form pdfForm = new Form();
pdfForm.bindPdf("TextBox_out.pdf");
FileOutputStream xmlOutputStream = new FileOutputStream(new File("input.xml"));
pdfForm.exportXml(xmlOutputStream);
xmlOutputStream.close();
} catch (IOException e) {
e.printStackTrace();
}
}
public static void ConvertXmlToXlsx() {
try {
XmlLoadOptions options = new XmlLoadOptions();
options.setCheckDataValid(true);
Workbook wb = new Workbook("input.xml", options);
wb.save("XmlToXlsx.xlsx", SaveFormat.XLSX);
} catch (Exception e) {
e.printStackTrace();
}
}
}

上述代码演示了 如何使用 Java 将可填写的 PDF 表单数据导出到 Excel。开发人员可以使用 XmlLoadOptions 对象中的各种方法和属性来自定义 XML 文件的加载过程。此外,您还可以使用 setLoadFilter(LoadFilter value) 方法,在从 XML 文件加载数据时进行筛选。

本文介绍了如何将 PDF 表单数据转换为 Excel 文件。如果您想提取特定页面的特定表单字段,请参阅 使用 Java 从 PDF 表单提取数据 相关的文章。

 简体中文