استخراج البيانات من نموذج PDF باستخدام Python

هذه المقالة تقدم دليلًا حول كيفية استخراج البيانات من نموذج PDF باستخدام Python. تحتوي على جميع التفاصيل اللازمة لإعداد بيئة التطوير، قائمة بالخطوات، ونموذج كود للوصول إلى بيانات حقول النموذج. نموذج الكود سيقوم بإنشاء ملف PDF تجريبي مع الحقول والقيم، وجلب البيانات من جميع الحقول.

خطوات استخراج البيانات من حقول نموذج PDF باستخدام Python

  1. إعداد البيئة لاستخدام Aspose.PDF لـ Python عبر .NET لاستخراج بيانات النموذج
  2. إنشاء أو تحميل ملف PDF إلى كائن Document مع حقول الإدخال التي تحتوي على البيانات
  3. جلب جميع الحقول من خاصية النموذج في مستند PDF الذي تم تحميله
  4. التفاعل مع جميع الحقول والوصول إلى كل حقل
  5. عرض الاسم الكامل للحقل وقيمته

هذه الخطوات تصف كيفية استخراج البيانات من نموذج PDF قابل للتعبئة باستخدام Python. قم بإنشاء أو تحميل ملف PDF مع الحقول والقيم، والوصول إلى مجموعة الحقول من خاصية النموذج في ملف PDF. قم بالتفاعل مع جميع الحصول على الاسم الكامل للحقل وقيمته للمعالجة.

كود لاستخراج حقول النموذج من PDF باستخدام Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

هذا الكود يوضح كيفية استخراج البيانات من نموذج PDF. لقد استخدمنا مجموعة Document.form.fields التي تحتوي على جميع الحقول في PDF. يمكنك تصفية الحقول من صفحة معينة باستخدام page_index في كائن Field الذي يتم الوصول إليه من المجموعة.

هذه المقالة علمتنا عملية قراءة بيانات نموذج PDF. إذا كنت ترغب في تسطيح ملف PDF، يمكنك الرجوع إلى المقالة حول كيفية تسطيح PDF في Python.

 عربي