Trích xuất dữ liệu từ biểu mẫu PDF bằng C#

Bài viết này hướng dẫn cách trích xuất dữ liệu từ biểu mẫu PDF bằng C#. Nó cung cấp chi tiết để thiết lập IDE, danh sách các bước và mã mẫu minh họa quy trình trích xuất các trường biểu mẫu từ PDF bằng C#. Bài viết sẽ giải thích quy trình trích xuất tên trường và giá trị từ tệp PDF đã tải.

Các bước để trích xuất dữ liệu từ các trường biểu mẫu PDF bằng C#

  1. Thiết lập môi trường để sử dụng Aspose.PDF for .NET để đọc dữ liệu biểu mẫu
  2. Tạo một tài liệu PDF trống, thêm nhiều trang và nhiều trường với dữ liệu để kiểm tra
  3. Tải tệp PDF có các trường vào đối tượng Document
  4. Truy cập đối tượng biểu mẫu từ Document đã tải
  5. Duyệt qua từng trường trong biểu mẫu và truy cập thông tin
  6. Hiển thị tên một phần của trường và giá trị

Các bước này tóm tắt quy trình xuất dữ liệu từ biểu mẫu PDF bằng C#. Tạo một tệp PDF và thêm các trường có giá trị vào đó, hoặc tải một tệp PDF hiện có chứa các trường biểu mẫu. Truy cập bộ sưu tập trường bằng đối tượng Document.Form và hiển thị tên trường và giá trị.

Mã để trích xuất dữ liệu từ biểu mẫu PDF có thể điền bằng C#

using Aspose.Pdf;
License lic = new License();
lic.SetLicense("license.lic");
AddTextBoxFieldToPdf();
// Open PDF document
using (var pdfDoc = new Document("TextBox_out.pdf"))
{
// Get values from all fields
foreach (Aspose.Pdf.Forms.Field field in pdfDoc.Form)
{
Console.WriteLine("Field Title : {0} ", field.PartialName);
Console.WriteLine("Field Data : {0} ", field.Value);
}
}
void AddTextBoxFieldToPdf()
{
// Open PDF document
using (var document = new Aspose.Pdf.Document())
{
for(int iPage = 1; iPage < 5; iPage++)
{
var page = document.Pages.Add();
for(int i = 1; i <= 5; i++)
{
// Create a field
var textBoxField = new Aspose.Pdf.Forms.TextBoxField(page,
new Aspose.Pdf.Rectangle(100, i * 100, 300, (i + 1) *100));
textBoxField.PartialName = $"textbox{iPage}{i}";
textBoxField.Value = $"Text Box {iPage}{i} Value";
document.Form.Add(textBoxField, iPage);
}
}
// Save PDF document
document.Save("TextBox_out.pdf");
}
}

Mã này đã minh họa cách trích xuất dữ liệu từ biểu mẫu PDF bằng C#. Bạn có thể truy cập tất cả các điều khiển trên biểu mẫu, bao gồm hộp văn bản, nút radio và hộp combo. Lưu ý rằng biểu mẫu chứa tất cả các trường trong PDF và cung cấp quyền truy cập vào các trường trên tất cả các trang trong tệp PDF đã tải.

Bài viết này đã dạy chúng ta quy trình truy cập tất cả các trường từ một tệp PDF. Để trích xuất phông chữ từ tệp PDF, hãy tham khảo bài viết về Trích xuất phông chữ từ PDF bằng C#.

 Tiếng Việt