Тази статия предоставя ръководство за извличане на данни от PDF форма с Python. Включва всички детайли за настройка на средата за разработка, списък със стъпки и примерен код за достъп до данни от полетата на формуляра. Примерният код ще създаде тестов PDF с полета и стойности и ще извлече данните от всички полета.
Стъпки за извличане на данни от полета на PDF форма с Python
- Настройка на средата за използване на Aspose.PDF за Python чрез .NET за извличане на данни от форми
- Създаване или зареждане на PDF файл в Document обект с входни полета, съдържащи данни
- Извличане на всички полета от свойството form на заредения PDF документ
- Преглед на всички полета и достъп до всяко поле
- Извеждане на пълното име и стойността на полето
Тези стъпки описват как да извлечете данни от попълваема PDF форма с Python. Създайте или заредете PDF файл с полета и стойности и осъществете достъп до колекцията от полета чрез свойството Form на PDF файла. Обходете всички полета и извлечете пълното име и стойност за обработка.
Код за извличане на полета от PDF форма с Python
import aspose.pdf as pdf | |
from aspose.pdf import Document, License, Rectangle | |
from aspose.pdf.forms import TextBoxField | |
def main(): | |
# Load Aspose PDF license | |
license = License() | |
license.set_license("license.lic") | |
# Generate PDF with input fields | |
create_pdf_with_fields() | |
# Open and process the generated PDF file | |
pdf_document = Document("UserForm.pdf") | |
# Retrieve and display form fields | |
form_fields = pdf_document.form.fields | |
for form_field in form_fields: | |
print("Field Name:", form_field.full_name) | |
print("Field Content:", form_field.value) | |
def create_pdf_with_fields(): | |
# Instantiate new PDF document | |
pdf_file = Document() | |
for page_index in range(1, 4): # 3 pages | |
new_page = pdf_file.pages.add() | |
for field_index in range(1, 5): # 4 fields per page | |
# Define a text input field | |
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True)) | |
input_field.partial_name = f"inputField_{page_index}_{field_index}" | |
input_field.value = f"Data Entry {page_index}-{field_index}" | |
# Attach field to the document form | |
pdf_file.form.add(input_field, page_index) | |
# Save document to disk | |
pdf_file.save("UserForm.pdf") | |
main() |
Този код демонстрира как да извлечете данни от PDF форма. Използваме колекцията Document.form.fields, която съдържа всички полета в PDF документа. Можете да филтрирате полетата от определена страница, като използвате page_index в обекта Field, достъпен от колекцията.
Тази статия ни показа процеса за четене на данни от PDF форма. Ако искате да конвертирате PDF във фиксиран формат, вижте статията Как да фиксирате PDF в Python.