Este artículo proporciona una guía sobre cómo extraer datos de formularios PDF usando Python. Incluye todos los detalles para configurar el IDE, una lista de pasos y un código de ejemplo para acceder a los datos de los campos del formulario. El código de ejemplo creará un PDF de prueba con campos y valores, y obtendrá los datos de todos los campos.
Pasos para extraer datos de campos de formularios PDF usando Python
- Configurar el entorno para usar Aspose.PDF para Python a través de .NET y extraer datos de formularios
- Crear o cargar un archivo PDF en un objeto Document con campos de entrada que contengan datos
- Obtener todos los campos de la propiedad form del documento PDF cargado
- Recorrer todos los campos y acceder a cada uno
- Mostrar el nombre completo y el valor del campo
Estos pasos describen cómo extraer datos de PDF rellenables usando Python. Cree o cargue un archivo PDF con campos y valores, y acceda a la colección de campos desde la propiedad Form en el archivo PDF. Recorra todos los campos y acceda al nombre completo y al valor para su procesamiento.
Código para extraer campos de formularios de PDF usando Python
import aspose.pdf as pdf | |
from aspose.pdf import Document, License, Rectangle | |
from aspose.pdf.forms import TextBoxField | |
def main(): | |
# Load Aspose PDF license | |
license = License() | |
license.set_license("license.lic") | |
# Generate PDF with input fields | |
create_pdf_with_fields() | |
# Open and process the generated PDF file | |
pdf_document = Document("UserForm.pdf") | |
# Retrieve and display form fields | |
form_fields = pdf_document.form.fields | |
for form_field in form_fields: | |
print("Field Name:", form_field.full_name) | |
print("Field Content:", form_field.value) | |
def create_pdf_with_fields(): | |
# Instantiate new PDF document | |
pdf_file = Document() | |
for page_index in range(1, 4): # 3 pages | |
new_page = pdf_file.pages.add() | |
for field_index in range(1, 5): # 4 fields per page | |
# Define a text input field | |
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True)) | |
input_field.partial_name = f"inputField_{page_index}_{field_index}" | |
input_field.value = f"Data Entry {page_index}-{field_index}" | |
# Attach field to the document form | |
pdf_file.form.add(input_field, page_index) | |
# Save document to disk | |
pdf_file.save("UserForm.pdf") | |
main() |
Este código demuestra cómo extraer datos de formularios PDF. Hemos utilizado la colección Document.form.fields, que contiene todos los campos en el PDF. Puede filtrar los campos de una página específica utilizando el page_index en el objeto Field accedido desde la colección.
Este artículo nos ha enseñado el proceso para leer datos de formularios PDF. Si desea aplanar un archivo PDF, consulte el artículo Cómo aplanar PDF en Python.