Εξαγωγή δεδομένων από φόρμα PDF χρησιμοποιώντας Python

Αυτό το άρθρο παρέχει οδηγίες για την εξαγωγή δεδομένων από PDF φόρμα με Python. Περιλαμβάνει όλες τις λεπτομέρειες για τη ρύθμιση του περιβάλλοντος ανάπτυξης, μια λίστα με βήματα και ένα δείγμα κώδικα για την πρόσβαση στα δεδομένα των πεδίων της φόρμας. Ο δείγμα κώδικας θα δημιουργήσει ένα δοκιμαστικό PDF με πεδία και τιμές και θα εξαγάγει δεδομένα από όλα τα πεδία.

Βήματα για την εξαγωγή δεδομένων από πεδία φόρμας PDF με Python

  1. Ρύθμιση του περιβάλλοντος για τη χρήση του Aspose.PDF για Python μέσω .NET για εξαγωγή δεδομένων από φόρμες
  2. Δημιουργία ή φόρτωση ενός αρχείου PDF σε ένα αντικείμενο Document με πεδία εισόδου που περιέχουν δεδομένα
  3. Ανάκτηση όλων των πεδίων από την ιδιότητα form του φορτωμένου εγγράφου PDF
  4. Περιήγηση σε όλα τα πεδία και πρόσβαση σε κάθε πεδίο
  5. Εμφάνιση του πλήρους ονόματος και της τιμής του πεδίου

Αυτά τα βήματα περιγράφουν πώς να εξάγετε δεδομένα από συμπληρώσιμη φόρμα PDF με Python. Δημιουργήστε ή φορτώστε ένα αρχείο PDF με πεδία και τιμές και αποκτήστε πρόσβαση στη συλλογή πεδίων μέσω της ιδιότητας Form του PDF αρχείου. Περιηγηθείτε σε όλα τα πεδία και αποκτήστε το πλήρες όνομα και την τιμή τους για επεξεργασία.

Κώδικας για την εξαγωγή πεδίων φόρμας από PDF με Python

import aspose.pdf as pdf
from aspose.pdf import Document, License, Rectangle
from aspose.pdf.forms import TextBoxField
def main():
# Load Aspose PDF license
license = License()
license.set_license("license.lic")
# Generate PDF with input fields
create_pdf_with_fields()
# Open and process the generated PDF file
pdf_document = Document("UserForm.pdf")
# Retrieve and display form fields
form_fields = pdf_document.form.fields
for form_field in form_fields:
print("Field Name:", form_field.full_name)
print("Field Content:", form_field.value)
def create_pdf_with_fields():
# Instantiate new PDF document
pdf_file = Document()
for page_index in range(1, 4): # 3 pages
new_page = pdf_file.pages.add()
for field_index in range(1, 5): # 4 fields per page
# Define a text input field
input_field = TextBoxField(new_page, Rectangle(120, field_index * 90, 320,(field_index + 1) * 90,True))
input_field.partial_name = f"inputField_{page_index}_{field_index}"
input_field.value = f"Data Entry {page_index}-{field_index}"
# Attach field to the document form
pdf_file.form.add(input_field, page_index)
# Save document to disk
pdf_file.save("UserForm.pdf")
main()

Αυτός ο κώδικας επιδεικνύει πώς να εξαγάγετε δεδομένα από φόρμα PDF. Χρησιμοποιούμε τη συλλογή Document.form.fields, η οποία περιέχει όλα τα πεδία στο PDF. Μπορείτε να φιλτράρετε τα πεδία από μια συγκεκριμένη σελίδα χρησιμοποιώντας το page_index στο αντικείμενο Field που αποκτάται από τη συλλογή.

Αυτό το άρθρο μας έδειξε τη διαδικασία ανάγνωσης δεδομένων από φόρμα PDF. Αν θέλετε να ισοπεδώσετε ένα αρχείο PDF, ανατρέξτε στο άρθρο Πώς να ισοπεδώσετε ένα PDF στην Python.

 Ελληνικά