Hướng dẫn này mô tả cách xuất dữ liệu từ PDF sang Excel bằng Java. Nó bao gồm thông tin về cách thiết lập IDE, danh sách các bước thực hiện và mã mẫu để trích xuất dữ liệu từ biểu mẫu PDF có thể điền vào Excel bằng Java. Bạn sẽ tìm hiểu cách xuất dữ liệu từ biểu mẫu PDF sang tệp XML và sau đó tải tệp XML vào Workbook để lưu dưới dạng tệp XLSX.
Các bước để xuất dữ liệu trường từ PDF sang Excel bằng Java
- Cài đặt IDE để sử dụng Aspose.PDF và Aspose.Cells để xuất dữ liệu biểu mẫu PDF.
- Sử dụng đối tượng Form từ Aspose.PDF để tải tệp PDF có chứa các trường biểu mẫu.
- Gọi phương thức Form.bindPdf() để liên kết tệp PDF với đối tượng Form.
- Tạo FileOutputStream để lưu tệp XML đầu ra.
- Gọi phương thức Form.exportXml() để lấy dữ liệu biểu mẫu và lưu vào tệp XML.
- Sử dụng đối tượng XmlLoadOptions từ Aspose.Cells API để tải tệp XML.
- Tải đối tượng Workbook để mở tệp XML và lưu dưới dạng tệp XLSX.
Các bước trên tóm tắt cách trích xuất dữ liệu từ biểu mẫu PDF sang Excel bằng Java. Đầu tiên, dữ liệu biểu mẫu PDF được chuyển sang tệp XML bằng API Aspose.PDF, sử dụng phương thức Form.exportXml(). Sau đó, sử dụng API Aspose.Cells để tải tệp XML vào một đối tượng Workbook và lưu dưới dạng tệp Excel XLSX.
Mã Java để trích xuất dữ liệu từ biểu mẫu PDF sang Excel
import com.aspose.pdf.Document; | |
import com.aspose.pdf.Field; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.WidgetAnnotation; | |
import com.aspose.pdf.facades.Form; | |
import com.aspose.cells.Workbook; | |
import com.aspose.cells.XmlLoadOptions; | |
import com.aspose.cells.SaveFormat; | |
import java.io.File; | |
import java.io.FileOutputStream; | |
import java.io.FileInputStream; | |
import java.io.IOException; | |
public class Main { | |
public static void main(String[] args) throws Exception { | |
// Set license for Aspose.PDF | |
License pdfLic = new License(); | |
try { | |
pdfLic.setLicense("license.lic"); | |
} catch (Exception e) { | |
e.printStackTrace(); | |
} | |
// Set license for Aspose.Cells | |
com.aspose.cells.License cellsLic = new com.aspose.cells.License(); | |
try { | |
cellsLic.setLicense("license.lic"); | |
} catch (Exception e) { | |
e.printStackTrace(); | |
} | |
ExportDataToXml(); | |
ConvertXmlToXlsx(); | |
} | |
public static void ExportDataToXml() { | |
try { | |
Form pdfForm = new Form(); | |
pdfForm.bindPdf("TextBox_out.pdf"); | |
FileOutputStream xmlOutputStream = new FileOutputStream(new File("input.xml")); | |
pdfForm.exportXml(xmlOutputStream); | |
xmlOutputStream.close(); | |
} catch (IOException e) { | |
e.printStackTrace(); | |
} | |
} | |
public static void ConvertXmlToXlsx() { | |
try { | |
XmlLoadOptions options = new XmlLoadOptions(); | |
options.setCheckDataValid(true); | |
Workbook wb = new Workbook("input.xml", options); | |
wb.save("XmlToXlsx.xlsx", SaveFormat.XLSX); | |
} catch (Exception e) { | |
e.printStackTrace(); | |
} | |
} | |
} |
Mã trên minh họa cách xuất dữ liệu từ biểu mẫu PDF có thể điền vào Excel bằng Java. Nhà phát triển có thể tùy chỉnh cách tải tệp XML đầu ra bằng cách sử dụng các phương thức và thuộc tính khác nhau trong đối tượng XmlLoadOptions. Bạn cũng có thể sử dụng phương thức setLoadFilter(LoadFilter value) để lọc dữ liệu khi tải từ tệp XML.
Bài viết này đã hướng dẫn cách chuyển đổi dữ liệu biểu mẫu PDF sang tệp Excel. Nếu bạn muốn trích xuất một trường biểu mẫu cụ thể từ một trang nhất định, hãy tham khảo bài viết về cách Trích xuất dữ liệu từ biểu mẫu PDF bằng Java.