Извлечение данных из PDF-формы с использованием Java

Это краткое руководство описывает процесс извлечения данных из PDF-формы с использованием Java. В нем приведены детали настройки IDE, пошаговый список для написания программы и пример кода, демонстрирующий, как экспортировать данные из PDF-формы с использованием Java. Подробно описано, как получить доступ ко всем или выбранным полям формы и обработать их в соответствии с требованиями.

Шаги для извлечения данных из полей PDF-формы с использованием Java

  1. Настройте IDE для использования Aspose.PDF for Java для извлечения данных формы
  2. Создайте PDF-файл с текстовыми полями и примерными данными
  3. Загрузите PDF-файл с формой и полями ввода в объект Document
  4. Получите доступ к коллекции полей в форме из загруженного документа
  5. Пройдитесь по всем полям и получите полное имя и значение для отображения на консоли

Эти шаги объясняют, как извлечь поля формы из PDF с использованием Java. Создайте PDF-файл с полями формы и примерными данными или загрузите существующий файл с данными формы. Получите доступ к коллекции полей из свойства Form документа, пройдитесь по всем полям и отобразите нужные свойства.

Пример кода для извлечения данных из заполняемой PDF-формы с использованием Java

import com.aspose.pdf.*;
public class Main {
public static void main(String[] args) throws Exception {
// Load Aspose PDF license
License license = new License();
license.setLicense("license.lic");
// Generate PDF with input fields
createPdfWithFields();
// Open and process the generated PDF file
Document pdfDocument = new Document("UserForm.pdf");
// Retrieve and display form fields
Field[] formFields = pdfDocument.getForm().getFields();
for (Field formField : formFields) {
System.out.println("Field Name: " + formField.getFullName());
System.out.println("Field Content: " + formField.getValue());
}
// Release resources
pdfDocument.close();
}
private static void createPdfWithFields() {
// Instantiate new PDF document
Document pdfFile = new Document();
for (int pageIndex = 1; pageIndex <= 3; pageIndex++) {
Page newPage = pdfFile.getPages().add();
for (int fieldIndex = 1; fieldIndex <= 4; fieldIndex++) {
// Define a text input field
TextBoxField inputField = new TextBoxField(newPage,
new Rectangle(120, fieldIndex * 90, 320, (fieldIndex + 1) * 90));
inputField.setPartialName("inputField_" + pageIndex + "_" + fieldIndex);
inputField.setValue("Data Entry " + pageIndex + "-" + fieldIndex);
// Attach field to the document form
pdfFile.getForm().add(inputField, pageIndex);
}
}
// Save document to disk
pdfFile.save("UserForm.pdf");
// Free resources
pdfFile.close();
}
}

Этот код демонстрирует, как извлечь данные из PDF-формы с использованием Java. Вы можете получить доступ к различным свойствам формы, таким как альтернативное имя поля, имя отображения, содержимое, частичное имя, активное состояние, имя выбранного состояния, индекс страницы и т.д. Для доступа только к выбранным полям используйте индекс поля, например formFields[1].getValue() для получения значения первого поля.

В этой статье мы обработали формы в PDF-файле. Чтобы узнать, как извлечь шрифты из PDF-файла, обратитесь к статье Извлечение шрифтов из PDF с использованием Java.

 Русский