Извлечение данных из PDF-формы с использованием C#

Эта статья рассказывает, как извлечь данные из PDF-формы с использованием C#. В ней приведены подробные инструкции по настройке IDE, пошаговый список и пример кода, демонстрирующий процесс извлечения полей формы из PDF с использованием C#. Статья объясняет процесс извлечения имен полей и их значений из загруженного PDF-файла.

Шаги для извлечения данных из полей PDF-формы с использованием C#

  1. Настройте среду для использования Aspose.PDF for .NET для чтения данных формы
  2. Создайте пустой PDF-документ, добавьте несколько страниц и полей с данными для тестирования
  3. Загрузите PDF-файл с полями в объект Document
  4. Получите доступ к объекту формы из загруженного Document
  5. Пройдитесь по каждому полю в форме и получите доступ к информации
  6. Отобразите частичное имя поля и его значение

Эти шаги суммируют процесс экспорта данных из PDF-формы с использованием C#. Создайте PDF-файл и добавьте в него поля со значениями или загрузите существующий PDF-файл, содержащий поля формы. Получите доступ к коллекции полей с помощью объекта Document.Form и отобразите имя поля и его значение.

Пример кода для извлечения данных из заполняемой PDF-формы с использованием C#

using Aspose.Pdf;
License lic = new License();
lic.SetLicense("license.lic");
AddTextBoxFieldToPdf();
// Open PDF document
using (var pdfDoc = new Document("TextBox_out.pdf"))
{
// Get values from all fields
foreach (Aspose.Pdf.Forms.Field field in pdfDoc.Form)
{
Console.WriteLine("Field Title : {0} ", field.PartialName);
Console.WriteLine("Field Data : {0} ", field.Value);
}
}
void AddTextBoxFieldToPdf()
{
// Open PDF document
using (var document = new Aspose.Pdf.Document())
{
for(int iPage = 1; iPage < 5; iPage++)
{
var page = document.Pages.Add();
for(int i = 1; i <= 5; i++)
{
// Create a field
var textBoxField = new Aspose.Pdf.Forms.TextBoxField(page,
new Aspose.Pdf.Rectangle(100, i * 100, 300, (i + 1) *100));
textBoxField.PartialName = $"textbox{iPage}{i}";
textBoxField.Value = $"Text Box {iPage}{i} Value";
document.Form.Add(textBoxField, iPage);
}
}
// Save PDF document
document.Save("TextBox_out.pdf");
}
}

Этот код демонстрирует, как извлечь данные из PDF-формы с использованием C#. Вы можете получить доступ ко всем элементам управления в форме, включая текстовые поля, переключатели и выпадающие списки. Обратите внимание, что форма содержит все поля в PDF-файле и предоставляет доступ к полям на всех страницах загруженного PDF-файла.

Эта статья научила нас процессу доступа ко всем полям из PDF-файла. Чтобы узнать, как извлечь шрифты из PDF-файла, обратитесь к статье Извлечение шрифтов из PDF с использованием C#.

 Русский