Extraer datos de formularios PDF usando Python

Este artículo proporciona una guía sobre cómo extraer datos de formularios PDF usando Python. Incluye todos los detalles para configurar el IDE, una lista de pasos y un código de ejemplo para acceder a los datos de los campos del formulario. El código de ejemplo creará un PDF de prueba con campos y valores, y obtendrá los datos de todos los campos.

Pasos para extraer datos de campos de formularios PDF usando Python

  1. Configurar el entorno para usar Aspose.PDF para Python a través de .NET y extraer datos de formularios
  2. Crear o cargar un archivo PDF en un objeto Document con campos de entrada que contengan datos
  3. Obtener todos los campos de la propiedad form del documento PDF cargado
  4. Recorrer todos los campos y acceder a cada uno
  5. Mostrar el nombre completo y el valor del campo

Estos pasos describen cómo extraer datos de PDF rellenables usando Python. Cree o cargue un archivo PDF con campos y valores, y acceda a la colección de campos desde la propiedad Form en el archivo PDF. Recorra todos los campos y acceda al nombre completo y al valor para su procesamiento.

Código para extraer campos de formularios de PDF usando Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Este código demuestra cómo extraer datos de formularios PDF. Hemos utilizado la colección Document.form.fields, que contiene todos los campos en el PDF. Puede filtrar los campos de una página específica utilizando el page_index en el objeto Field accedido desde la colección.

Este artículo nos ha enseñado el proceso para leer datos de formularios PDF. Si desea aplanar un archivo PDF, consulte el artículo Cómo aplanar PDF en Python.

 Español