Estrarre dati da un modulo PDF usando Python

Questo articolo guida su come estrarre dati da un modulo PDF usando Python. Contiene tutti i dettagli per configurare l’IDE, un elenco di passaggi e un codice di esempio per accedere ai dati dei campi del modulo. Il codice di esempio creerà un PDF di prova con campi e valori e recupererà i dati da tutti i campi.

Passaggi per estrarre dati dai campi di un modulo PDF usando Python

  1. Configurare l’ambiente per utilizzare Aspose.PDF per Python tramite .NET per estrarre dati dal modulo
  2. Creare o caricare un file PDF in un oggetto Document con campi di input contenenti dati
  3. Recuperare tutti i campi dalla proprietà form del documento PDF caricato
  4. Scorrere tutti i campi e accedere a ciascun campo
  5. Visualizzare il nome completo del campo e il suo valore

Questi passaggi descrivono come estrarre dati da un PDF compilabile usando Python. Crea o carica un file PDF con campi e valori e accedi alla raccolta di campi dalla proprietà Form del file PDF. Itera su tutti i campi e accedi al nome completo e al valore per l’elaborazione.

Codice per estrarre i campi di un modulo da un PDF usando Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Questo codice ha dimostrato come estrarre dati da un modulo PDF. Abbiamo usato la raccolta Document.form.fields che contiene tutti i campi del PDF. Puoi filtrare i campi di una pagina specifica usando l’indice della pagina (page_index) nell’oggetto Field accessibile dalla raccolta.

Questo articolo ci ha insegnato il processo per leggere i dati di un modulo PDF. Se vuoi appiattire un file PDF, consulta l’articolo su Come appiattire un PDF in Python.

 Italiano