Wyodrębnianie danych z formularza PDF za pomocą języka Python

Ten artykuł opisuje, jak wyodrębnić dane z PDF formularza za pomocą języka Python. Zawiera wszystkie szczegóły dotyczące konfiguracji środowiska IDE, listę kroków oraz przykładowy kod do pobierania danych z pól formularza. Przykładowy kod utworzy testowy plik PDF z polami i wartościami, a następnie pobierze dane z wszystkich pól.

Kroki do wyodrębnienia danych z pól formularza PDF w Pythonie

  1. Skonfiguruj środowisko do użycia Aspose.PDF for Python via .NET w celu wyodrębnienia danych formularza
  2. Utwórz lub załaduj plik PDF do obiektu Document z polami wejściowymi zawierającymi dane
  3. Pobierz wszystkie pola z właściwości form załadowanego dokumentu PDF
  4. Iteruj po wszystkich polach i uzyskaj dostęp do każdego z nich
  5. Wyświetl pełną nazwę i wartość pola

Te kroki opisują sposób wyodrębniania danych z wypełnialnego formularza PDF za pomocą języka Python. Utwórz lub załaduj plik PDF z polami i wartościami, a następnie uzyskaj dostęp do kolekcji pól z właściwości Form pliku PDF. Iteruj po wszystkich polach, aby uzyskać ich pełne nazwy i wartości do dalszego przetwarzania.

Kod do wyodrębnienia pól formularza z PDF za pomocą Pythona

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Kod ten pokazuje, jak wyodrębnić dane z formularza PDF. Używamy kolekcji Document.form.fields, która zawiera wszystkie pola w pliku PDF. Możesz filtrować pola z konkretnej strony, używając page_index w obiekcie Field pobranym z tej kolekcji.

Ten artykuł nauczył nas, jak odczytywać dane z formularza PDF. Jeśli chcesz spłaszczyć plik PDF, zapoznaj się z artykułem Jak spłaszczyć PDF w Pythonie.

 Polski