Extrahovat data z PDF formuláře pomocí Pythonu

Tento článek popisuje, jak extrahovat data z PDF formuláře pomocí Pythonu. Obsahuje všechny podrobnosti pro nastavení IDE, seznam kroků a ukázkový kód pro přístup k datům polí formuláře. Ukázkový kód vytvoří testovací PDF s poli a hodnotami a získá data ze všech polí.

Kroky k extrakci dat z polí PDF formuláře pomocí Pythonu

  1. Nastavit prostředí pro použití Aspose.PDF pro Python přes .NET k extrakci dat z formuláře
  2. Vytvořit nebo načíst PDF soubor do objektu Document s vstupními poli obsahujícími data
  3. Získat všechna pole z vlastnosti form načteného PDF dokumentu
  4. Procházet všechna pole a přistupovat k jednotlivým polím
  5. Zobrazit plný název pole a jeho hodnotu

Tyto kroky popisují, jak extrahovat data z vyplnitelného PDF pomocí Pythonu. Vytvořte nebo načtěte PDF soubor s poli a hodnotami a přistupte ke kolekci polí z vlastnosti Form v PDF souboru. Projděte všechna pole a přistupte k plnému názvu a hodnotě pro zpracování.

Kód pro extrakci polí formuláře z PDF pomocí Pythonu

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Tento kód ukázal, jak extrahovat data z PDF formuláře. Použili jsme kolekci Document.form.fields, která obsahuje všechna pole v PDF. Můžete filtrovat pole z konkrétní stránky pomocí page_index v objektu Field přístupném z kolekce.

Tento článek nás naučil proces čtení dat z PDF formuláře. Pokud chcete PDF soubor zploštit, podívejte se na článek o Jak zploštit PDF v Pythonu.

 Čeština