Αυτό το άρθρο παρέχει οδηγίες για την εξαγωγή δεδομένων από PDF φόρμα με Python. Περιλαμβάνει όλες τις λεπτομέρειες για τη ρύθμιση του περιβάλλοντος ανάπτυξης, μια λίστα με βήματα και ένα δείγμα κώδικα για την πρόσβαση στα δεδομένα των πεδίων της φόρμας. Ο δείγμα κώδικας θα δημιουργήσει ένα δοκιμαστικό PDF με πεδία και τιμές και θα εξαγάγει δεδομένα από όλα τα πεδία.
Βήματα για την εξαγωγή δεδομένων από πεδία φόρμας PDF με Python
- Ρύθμιση του περιβάλλοντος για τη χρήση του Aspose.PDF για Python μέσω .NET για εξαγωγή δεδομένων από φόρμες
- Δημιουργία ή φόρτωση ενός αρχείου PDF σε ένα αντικείμενο Document με πεδία εισόδου που περιέχουν δεδομένα
- Ανάκτηση όλων των πεδίων από την ιδιότητα form του φορτωμένου εγγράφου PDF
- Περιήγηση σε όλα τα πεδία και πρόσβαση σε κάθε πεδίο
- Εμφάνιση του πλήρους ονόματος και της τιμής του πεδίου
Αυτά τα βήματα περιγράφουν πώς να εξάγετε δεδομένα από συμπληρώσιμη φόρμα PDF με Python. Δημιουργήστε ή φορτώστε ένα αρχείο PDF με πεδία και τιμές και αποκτήστε πρόσβαση στη συλλογή πεδίων μέσω της ιδιότητας Form του PDF αρχείου. Περιηγηθείτε σε όλα τα πεδία και αποκτήστε το πλήρες όνομα και την τιμή τους για επεξεργασία.
Κώδικας για την εξαγωγή πεδίων φόρμας από PDF με Python
import aspose.pdf as pdf | |
from aspose.pdf import Document, License, Rectangle | |
from aspose.pdf.forms import TextBoxField | |
def main(): | |
# Load Aspose PDF license | |
license = License() | |
license.set_license("license.lic") | |
# Generate PDF with input fields | |
create_pdf_with_fields() | |
# Open and process the generated PDF file | |
pdf_document = Document("UserForm.pdf") | |
# Retrieve and display form fields | |
form_fields = pdf_document.form.fields | |
for form_field in form_fields: | |
print("Field Name:", form_field.full_name) | |
print("Field Content:", form_field.value) | |
def create_pdf_with_fields(): | |
# Instantiate new PDF document | |
pdf_file = Document() | |
for page_index in range(1, 4): # 3 pages | |
new_page = pdf_file.pages.add() | |
for field_index in range(1, 5): # 4 fields per page | |
# Define a text input field | |
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True)) | |
input_field.partial_name = f"inputField_{page_index}_{field_index}" | |
input_field.value = f"Data Entry {page_index}-{field_index}" | |
# Attach field to the document form | |
pdf_file.form.add(input_field, page_index) | |
# Save document to disk | |
pdf_file.save("UserForm.pdf") | |
main() |
Αυτός ο κώδικας επιδεικνύει πώς να εξαγάγετε δεδομένα από φόρμα PDF. Χρησιμοποιούμε τη συλλογή Document.form.fields, η οποία περιέχει όλα τα πεδία στο PDF. Μπορείτε να φιλτράρετε τα πεδία από μια συγκεκριμένη σελίδα χρησιμοποιώντας το page_index στο αντικείμενο Field που αποκτάται από τη συλλογή.
Αυτό το άρθρο μας έδειξε τη διαδικασία ανάγνωσης δεδομένων από φόρμα PDF. Αν θέλετε να ισοπεδώσετε ένα αρχείο PDF, ανατρέξτε στο άρθρο Πώς να ισοπεδώσετε ένα PDF στην Python.