Извличане на данни от PDF форма с Python

Тази статия предоставя ръководство за извличане на данни от PDF форма с Python. Включва всички детайли за настройка на средата за разработка, списък със стъпки и примерен код за достъп до данни от полетата на формуляра. Примерният код ще създаде тестов PDF с полета и стойности и ще извлече данните от всички полета.

Стъпки за извличане на данни от полета на PDF форма с Python

  1. Настройка на средата за използване на Aspose.PDF за Python чрез .NET за извличане на данни от форми
  2. Създаване или зареждане на PDF файл в Document обект с входни полета, съдържащи данни
  3. Извличане на всички полета от свойството form на заредения PDF документ
  4. Преглед на всички полета и достъп до всяко поле
  5. Извеждане на пълното име и стойността на полето

Тези стъпки описват как да извлечете данни от попълваема PDF форма с Python. Създайте или заредете PDF файл с полета и стойности и осъществете достъп до колекцията от полета чрез свойството Form на PDF файла. Обходете всички полета и извлечете пълното име и стойност за обработка.

Код за извличане на полета от PDF форма с Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Този код демонстрира как да извлечете данни от PDF форма. Използваме колекцията Document.form.fields, която съдържа всички полета в PDF документа. Можете да филтрирате полетата от определена страница, като използвате page_index в обекта Field, достъпен от колекцията.

Тази статия ни показа процеса за четене на данни от PDF форма. Ако искате да конвертирате PDF във фиксиран формат, вижте статията Как да фиксирате PDF в Python.

 Български