Αυτό το γρήγορο σεμινάριο εξηγεί πώς να διαβάζετε μεταδεδομένα PDF χρησιμοποιώντας την Python. Περιέχει λεπτομερείς πληροφορίες για τον καθορισμό του περιβάλλοντος για την ανάπτυξη της εφαρμογής, μια σταδιακή διαδικασία και ένα εκτελούμενο δείγμα κώδικα για εξαγωγή μεταδεδομένων από PDF χρησιμοποιώντας Python. Θα μάθετε πόσο εύκολο είναι να γράψετε την εφαρμογή και να αποκτήσετε πρόσβαση στις πληροφορίες μεταδεδομένων από το PDF χρησιμοποιώντας πολύ λίγες κλήσεις API χωρίς να εγκαταστήσετε κάποιο εργαλείο τρίτου μέρους σε οποιοδήποτε από τα περιβάλλοντα που υποστηρίζονται από την Python.
Βήματα για την ανάγνωση μεταδεδομένων PDF χρησιμοποιώντας Python
- Δημιουργήστε το περιβάλλον στο χρησιμοποιήστε το Aspose.PDF για Python μέσω .NET για την ανάγνωση μεταδεδομένων
- Φορτώστε το αρχείο προέλευσης PDF χρησιμοποιώντας το αντικείμενο κλάσης Document για ανάκτηση μεταδεδομένων
- Αποκτήστε πρόσβαση στο αντικείμενο κλάσης DocumentInfo που περιέχει τα μεταδεδομένα PDF
- Αποκτήστε πρόσβαση σε μερικές ιδιότητες πληροφοριών και εμφανίστε τις στην κονσόλα
Αυτά τα βήματα περιγράφουν τη διαδικασία προβολής μεταδεδομένων PDF χρησιμοποιώντας Python. Πρώτα, πρέπει να φορτώσετε το αρχείο PDF προορισμού και, στη συνέχεια, να αποκτήσετε πρόσβαση στην ιδιότητα DocumentInfo με το όνομα Info στην κατηγορία Document. Αυτό το αντικείμενο έχει όλα τα μεταδεδομένα στο PDF όπως δημιουργός, ζώνη ώρας τροποποίησης, παραγωγός, ημερομηνία δημιουργίας και ημερομηνία τροποποίησης.
Κώδικας για λήψη μεταδεδομένων PDF χρησιμοποιώντας Python
Αυτός ο κώδικας απλώς δείχνει τη διαδικασία ανάκτησης μεταδεδομένων PDF χρησιμοποιώντας Python. Το αντικείμενο της κλάσης DocumentInfo είναι προσβάσιμο από το φορτωμένο έγγραφο που έχει έναν αριθμό πληροφοριών μεταδεδομένων όπως η παγιδευμένη σημαία, ο τίτλος, το θέμα, οι λέξεις-κλειδιά του εγγράφου και ο συγγραφέας. Εάν θέλετε να προσθέσετε αυτές τις ιδιότητες, μπορείτε να χρησιμοποιήσετε τη μέθοδο DocumentInfo.add(), χρησιμοποιήστε τη μέθοδο clear() για να διαγράψετε τα μεταδεδομένα και χρησιμοποιήστε τη μέθοδο remove() για να αφαιρέσετε μόνο καθορισμένα μεταδεδομένα.
Αυτό το άρθρο περιγράφει τη διαδικασία ανάκτησης μεταδεδομένων από το PDF. Εάν θέλετε να μάθετε τη διαδικασία ανάγνωσης των περιεχομένων PDF, ανατρέξτε στο άρθρο στο πώς να διαβάσετε περιεχόμενο PDF στην Python.