Este artigo orienta sobre como extrair dados de um formulário PDF usando Python. Ele contém todos os detalhes para configurar o IDE, uma lista de etapas e um código de exemplo para acessar os dados dos campos do formulário. O código de exemplo criará um PDF de teste com campos e valores e obterá os dados de todos os campos.
Etapas para Extrair Dados de Campos de Formulário PDF Usando Python
- Configurar o ambiente para usar o Aspose.PDF para Python via .NET para extrair dados do formulário
- Criar ou carregar um arquivo PDF em um objeto Document com campos de entrada contendo dados
- Obter todos os campos da propriedade form do documento PDF carregado
- Percorrer todos os campos e acessar cada campo
- Exibir o nome completo do campo e seu valor
Essas etapas descrevem como extrair dados de um PDF preenchível usando Python. Crie ou carregue um arquivo PDF com campos e valores e acesse a coleção de campos a partir da propriedade Form no arquivo PDF. Itere por todos os campos e acesse o nome completo e o valor para processamento.
Código para Extrair Campos de Formulário de um PDF Usando Python
import aspose.pdf as pdf | |
from aspose.pdf import Document, License, Rectangle | |
from aspose.pdf.forms import TextBoxField | |
def main(): | |
# Load Aspose PDF license | |
license = License() | |
license.set_license("license.lic") | |
# Generate PDF with input fields | |
create_pdf_with_fields() | |
# Open and process the generated PDF file | |
pdf_document = Document("UserForm.pdf") | |
# Retrieve and display form fields | |
form_fields = pdf_document.form.fields | |
for form_field in form_fields: | |
print("Field Name:", form_field.full_name) | |
print("Field Content:", form_field.value) | |
def create_pdf_with_fields(): | |
# Instantiate new PDF document | |
pdf_file = Document() | |
for page_index in range(1, 4): # 3 pages | |
new_page = pdf_file.pages.add() | |
for field_index in range(1, 5): # 4 fields per page | |
# Define a text input field | |
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True)) | |
input_field.partial_name = f"inputField_{page_index}_{field_index}" | |
input_field.value = f"Data Entry {page_index}-{field_index}" | |
# Attach field to the document form | |
pdf_file.form.add(input_field, page_index) | |
# Save document to disk | |
pdf_file.save("UserForm.pdf") | |
main() |
Este código demonstrou como extrair dados de um formulário PDF. Usamos a coleção Document.form.fields que contém todos os campos do PDF. Você pode filtrar os campos de uma página específica usando o índice da página (page_index) no objeto Field acessado a partir da coleção.
Este artigo nos ensinou o processo de leitura de dados de um formulário PDF. Se você deseja achatar um arquivo PDF, consulte o artigo sobre Como achatar um PDF em Python.