هذه المقالة تقدم دليلًا حول كيفية استخراج البيانات من نموذج PDF باستخدام Python. تحتوي على جميع التفاصيل اللازمة لإعداد بيئة التطوير، قائمة بالخطوات، ونموذج كود للوصول إلى بيانات حقول النموذج. نموذج الكود سيقوم بإنشاء ملف PDF تجريبي مع الحقول والقيم، وجلب البيانات من جميع الحقول.
خطوات استخراج البيانات من حقول نموذج PDF باستخدام Python
- إعداد البيئة لاستخدام Aspose.PDF لـ Python عبر .NET لاستخراج بيانات النموذج
- إنشاء أو تحميل ملف PDF إلى كائن Document مع حقول الإدخال التي تحتوي على البيانات
- جلب جميع الحقول من خاصية النموذج في مستند PDF الذي تم تحميله
- التفاعل مع جميع الحقول والوصول إلى كل حقل
- عرض الاسم الكامل للحقل وقيمته
هذه الخطوات تصف كيفية استخراج البيانات من نموذج PDF قابل للتعبئة باستخدام Python. قم بإنشاء أو تحميل ملف PDF مع الحقول والقيم، والوصول إلى مجموعة الحقول من خاصية النموذج في ملف PDF. قم بالتفاعل مع جميع الحصول على الاسم الكامل للحقل وقيمته للمعالجة.
كود لاستخراج حقول النموذج من PDF باستخدام Python
import aspose.pdf as pdf | |
from aspose.pdf import Document, License, Rectangle | |
from aspose.pdf.forms import TextBoxField | |
def main(): | |
# Load Aspose PDF license | |
license = License() | |
license.set_license("license.lic") | |
# Generate PDF with input fields | |
create_pdf_with_fields() | |
# Open and process the generated PDF file | |
pdf_document = Document("UserForm.pdf") | |
# Retrieve and display form fields | |
form_fields = pdf_document.form.fields | |
for form_field in form_fields: | |
print("Field Name:", form_field.full_name) | |
print("Field Content:", form_field.value) | |
def create_pdf_with_fields(): | |
# Instantiate new PDF document | |
pdf_file = Document() | |
for page_index in range(1, 4): # 3 pages | |
new_page = pdf_file.pages.add() | |
for field_index in range(1, 5): # 4 fields per page | |
# Define a text input field | |
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True)) | |
input_field.partial_name = f"inputField_{page_index}_{field_index}" | |
input_field.value = f"Data Entry {page_index}-{field_index}" | |
# Attach field to the document form | |
pdf_file.form.add(input_field, page_index) | |
# Save document to disk | |
pdf_file.save("UserForm.pdf") | |
main() |
هذا الكود يوضح كيفية استخراج البيانات من نموذج PDF. لقد استخدمنا مجموعة Document.form.fields التي تحتوي على جميع الحقول في PDF. يمكنك تصفية الحقول من صفحة معينة باستخدام page_index في كائن Field الذي يتم الوصول إليه من المجموعة.
هذه المقالة علمتنا عملية قراءة بيانات نموذج PDF. إذا كنت ترغب في تسطيح ملف PDF، يمكنك الرجوع إلى المقالة حول كيفية تسطيح PDF في Python.