Αυτό το σύντομο σεμινάριο περιγράφει τη διαδικασία πώς να διαβάζετε τον πίνακα PDF στην Python. Παρουσιάζει όλες τις βασικές πληροφορίες για τον ορισμό του περιβάλλοντος ανάπτυξης, μια ακολουθία βημάτων για τη σύνταξη της εφαρμογής και ένα δείγμα κώδικα με δυνατότητα εκτέλεσης για εξαγωγή πίνακα από PDF στην Python. Θα λάβετε καθοδήγηση για πρόσβαση σε κάθε κελί του πίνακα και, στη συνέχεια, ανάκτηση όλων των δεδομένων σε αυτό.
Βήματα για την εξαγωγή δεδομένων πίνακα από PDF χρησιμοποιώντας Python
- Ρυθμίστε το περιβάλλον σε χρησιμοποιήστε το Aspose.PDF για Python μέσω .NET για ανάγνωση πινάκων
- Φορτώστε το αρχείο προέλευσης PDF χρησιμοποιώντας την κλάση Document που έχει έναν πίνακα
- Δημιουργήστε μια παρουσία του αντικειμένου κλάσης TableAbsorber για ανάγνωση πινάκων από το φορτωμένο αρχείο PDF
- Επιλέξτε μια σελίδα και αναλύστε όλους τους πίνακες σε αυτήν
- Πρόσβαση στον πρώτο πίνακα και ανάλυση σειρών και στηλών για ανάκτηση όλων των παρουσιών TextFragment σε ένα κελί
- Αναλύστε όλα τα τμήματα κειμένου και εμφανίστε το κείμενο σε κάθε τμήμα
Αυτά τα βήματα εξηγούν τη διαδικασία ανάγνωσης πίνακα PDF στην Python. Η διαδικασία ξεκινά με τη φόρτωση του αρχείου PDF και στη συνέχεια τη δημιουργία του αντικειμένου TableAbsorber που έχει μεθόδους ανάγνωσης πινάκων από ένα αρχείο PDF. Μόλις αναλυθούν όλοι οι πίνακες σε μια συγκεκριμένη σελίδα, γίνεται πρόσβαση στον πρώτο πίνακα από τη συλλογή και, στη συνέχεια, αναλύεται κάθε γραμμή και στήλη για να ληφθεί η συλλογή των θραυσμάτων κειμένου σε αυτήν για την ανάκτηση των δεδομένων.
Κώδικας για εξαγωγή πίνακα από PDF χρησιμοποιώντας Python
Ο παραπάνω κώδικας δείχνει ότι η χρήση του python διαβάζει τον πίνακα pdf και παίρνει τα δεδομένα του για επεξεργασία. Όταν καλούμε τη μέθοδο visit() στην κλάση TableAbsorber, γεμίζει τον πίνακα table_list που χρησιμοποιείται για πρόσβαση σε μεμονωμένους πίνακες. Κάθε πίνακας στη συλλογή πινάκων έχει την ιδιότητα row_list που έχει μια ιδιότητα cell_list που παρέχει πρόσβαση στη συλλογή στηλών και, τέλος, φτάνετε στην ιδιότητα text_fragments για να λάβετε τη συλλογή δεδομένων σε ένα συγκεκριμένο κελί.
Αυτό το άρθρο μας δίδαξε ότι η εξαγωγή πίνακα από το PDF Python μπορεί να χρησιμοποιηθεί εύκολα. Εάν θέλετε να μάθετε τη διαδικασία ανάγνωσης σελιδοδεικτών σε PDF, ανατρέξτε στο άρθρο στο πώς να διαβάσετε σελιδοδείκτες σε PDF χρησιμοποιώντας Python.