Extrair Dados de um Formulário PDF Usando Python

Este artigo orienta sobre como extrair dados de um formulário PDF usando Python. Ele contém todos os detalhes para configurar o IDE, uma lista de etapas e um código de exemplo para acessar os dados dos campos do formulário. O código de exemplo criará um PDF de teste com campos e valores e obterá os dados de todos os campos.

Etapas para Extrair Dados de Campos de Formulário PDF Usando Python

  1. Configurar o ambiente para usar o Aspose.PDF para Python via .NET para extrair dados do formulário
  2. Criar ou carregar um arquivo PDF em um objeto Document com campos de entrada contendo dados
  3. Obter todos os campos da propriedade form do documento PDF carregado
  4. Percorrer todos os campos e acessar cada campo
  5. Exibir o nome completo do campo e seu valor

Essas etapas descrevem como extrair dados de um PDF preenchível usando Python. Crie ou carregue um arquivo PDF com campos e valores e acesse a coleção de campos a partir da propriedade Form no arquivo PDF. Itere por todos os campos e acesse o nome completo e o valor para processamento.

Código para Extrair Campos de Formulário de um PDF Usando Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Este código demonstrou como extrair dados de um formulário PDF. Usamos a coleção Document.form.fields que contém todos os campos do PDF. Você pode filtrar os campos de uma página específica usando o índice da página (page_index) no objeto Field acessado a partir da coleção.

Este artigo nos ensinou o processo de leitura de dados de um formulário PDF. Se você deseja achatar um arquivo PDF, consulte o artigo sobre Como achatar um PDF em Python.

 Português