Ekstrak Data dari Formulir PDF menggunakan Python

Artikel ini memberikan panduan tentang cara mengekstrak data dari PDF formulir menggunakan Python. Berisi semua detail untuk menyiapkan lingkungan pengembangan, daftar langkah-langkah, dan contoh kode untuk mengakses data bidang formulir. Contoh kode akan membuat PDF uji dengan bidang dan nilai, lalu mengambil data dari semua bidang.

Langkah-langkah untuk Mengekstrak Data dari Bidang Formulir PDF menggunakan Python

  1. Siapkan lingkungan untuk menggunakan Aspose.PDF untuk Python melalui .NET untuk mengekstrak data formulir
  2. Buat atau muat file PDF ke dalam objek Document dengan bidang input yang berisi data
  3. Ambil semua bidang dari properti form dalam dokumen PDF yang dimuat
  4. Telusuri semua bidang dan akses setiap bidang
  5. Tampilkan nama lengkap dan nilai bidang

Langkah-langkah ini menjelaskan cara mengekstrak data dari PDF yang dapat diisi menggunakan Python. Buat atau muat file PDF dengan bidang dan nilai, lalu akses kumpulan bidang dari properti Form dalam file PDF. Iterasi melalui semua bidang dan ambil nama lengkap serta nilainya untuk diproses.

Kode untuk Mengekstrak Bidang Formulir dari PDF menggunakan Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Kode ini menunjukkan cara mengekstrak data dari formulir PDF. Kami telah menggunakan kumpulan Document.form.fields yang berisi semua bidang dalam PDF. Anda dapat memfilter bidang dari halaman tertentu dengan menggunakan page_index dalam objek Field yang diakses dari kumpulan tersebut.

Artikel ini telah mengajarkan kita proses membaca data formulir PDF. Jika Anda ingin meratakan file PDF, lihat artikel tentang Cara Meratakan PDF di Python.

 Indonesian