Artikel ini memberikan panduan tentang cara mengekstrak data dari PDF formulir menggunakan Python. Berisi semua detail untuk menyiapkan lingkungan pengembangan, daftar langkah-langkah, dan contoh kode untuk mengakses data bidang formulir. Contoh kode akan membuat PDF uji dengan bidang dan nilai, lalu mengambil data dari semua bidang.
Langkah-langkah untuk Mengekstrak Data dari Bidang Formulir PDF menggunakan Python
- Siapkan lingkungan untuk menggunakan Aspose.PDF untuk Python melalui .NET untuk mengekstrak data formulir
- Buat atau muat file PDF ke dalam objek Document dengan bidang input yang berisi data
- Ambil semua bidang dari properti form dalam dokumen PDF yang dimuat
- Telusuri semua bidang dan akses setiap bidang
- Tampilkan nama lengkap dan nilai bidang
Langkah-langkah ini menjelaskan cara mengekstrak data dari PDF yang dapat diisi menggunakan Python. Buat atau muat file PDF dengan bidang dan nilai, lalu akses kumpulan bidang dari properti Form dalam file PDF. Iterasi melalui semua bidang dan ambil nama lengkap serta nilainya untuk diproses.
Kode untuk Mengekstrak Bidang Formulir dari PDF menggunakan Python
import aspose.pdf as pdf | |
from aspose.pdf import Document, License, Rectangle | |
from aspose.pdf.forms import TextBoxField | |
def main(): | |
# Load Aspose PDF license | |
license = License() | |
license.set_license("license.lic") | |
# Generate PDF with input fields | |
create_pdf_with_fields() | |
# Open and process the generated PDF file | |
pdf_document = Document("UserForm.pdf") | |
# Retrieve and display form fields | |
form_fields = pdf_document.form.fields | |
for form_field in form_fields: | |
print("Field Name:", form_field.full_name) | |
print("Field Content:", form_field.value) | |
def create_pdf_with_fields(): | |
# Instantiate new PDF document | |
pdf_file = Document() | |
for page_index in range(1, 4): # 3 pages | |
new_page = pdf_file.pages.add() | |
for field_index in range(1, 5): # 4 fields per page | |
# Define a text input field | |
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True)) | |
input_field.partial_name = f"inputField_{page_index}_{field_index}" | |
input_field.value = f"Data Entry {page_index}-{field_index}" | |
# Attach field to the document form | |
pdf_file.form.add(input_field, page_index) | |
# Save document to disk | |
pdf_file.save("UserForm.pdf") | |
main() |
Kode ini menunjukkan cara mengekstrak data dari formulir PDF. Kami telah menggunakan kumpulan Document.form.fields yang berisi semua bidang dalam PDF. Anda dapat memfilter bidang dari halaman tertentu dengan menggunakan page_index dalam objek Field yang diakses dari kumpulan tersebut.
Artikel ini telah mengajarkan kita proses membaca data formulir PDF. Jika Anda ingin meratakan file PDF, lihat artikel tentang Cara Meratakan PDF di Python.