Αυτός ο γρήγορος οδηγός σας καθοδηγεί πώς να διαβάζετε περιεχόμενο PDF στην Python. Εισάγει όλους τους πόρους, τις απαραίτητες κλάσεις και τις μεθόδους που θα χρησιμοποιηθούν στην εφαρμογή. Περιέχει επίσης ένα δείγμα κώδικα με δυνατότητα εκτέλεσης για διάβασμα pdf χρησιμοποιώντας python με τη βοήθεια πολύ λίγων γραμμών κώδικα μόνο χωρίς τη χρήση άλλου εργαλείου τρίτου μέρους.
Βήματα για την ανάγνωση PDF με Python
- Ορίστε το IDE σε χρησιμοποιήστε το Aspose.PDF για Python μέσω .NET για ανάγνωση κειμένου PDF
- Φορτώστε το αρχείο προέλευσης PDF χρησιμοποιώντας το αντικείμενο Document του οποίου τα δεδομένα πρόκειται να διαβαστούν
- Δημιουργήστε ένα αντικείμενο TextAbsorber για εξαγωγή κειμένου από το PDF
- Καλέστε τη μέθοδο accept() για να διαβάσετε ολόκληρο το κείμενο στο φορτωμένο αρχείο PDF
- Εμφανίστε το εξαγόμενο κείμενο χρησιμοποιώντας την ιδιότητα Text του αντικειμένου TextAbsorber
Αυτά τα βήματα συνοψίζουν τη διαδικασία ανάγνωσης ενός αρχείου PDF στην Python εισάγοντας την κλάση Document για τη φόρτωση του αρχείου PDF, το αντικείμενο κλάσης TextAbsorber για ανάκτηση κειμένου από το PDF και τη μέθοδο accept() που στην πραγματικότητα γεμίζει την ιδιότητα κειμένου του Αντικείμενο TextAbsorber. Μόλις κληθεί η μέθοδος accept(), τα δεδομένα συμβολοσειράς στην ιδιότητα κειμένου μπορούν να εκτυπωθούν ή να αναλυθούν για οποιαδήποτε περαιτέρω επεξεργασία.
Κώδικας για ανάγνωση αρχείου PDF στην Python
Το παραπάνω τμήμα κώδικα δείχνει τη διαδικασία εξαγωγής δεδομένων από αρχείο PDF χρησιμοποιώντας Python. Η κλάση TextAbsorber υποστηρίζει τη λειτουργία TextFormattingMode για εξαγωγή κειμένου σε καθαρό, ακατέργαστο, επίπεδο ή εξοικονόμηση μνήμης. Επιπλέον, η κλάση TextAbsorber επιστρέφει μια λίστα σφαλμάτων κατά την ανάκτηση των δεδομένων από το PDF και υποστηρίζει τον ορισμό ενός ορθογωνίου εντός του οποίου γίνεται ανάκτηση κειμένου από τη σελίδα Pdf.
Αυτό το άρθρο μας έμαθε να διαβάζουμε ένα PDF σε Python. Εάν θέλετε να μάθετε τη διαδικασία ανάγνωσης σελιδοδεικτών από ένα PDF, ανατρέξτε στο άρθρο στο Πώς να διαβάσετε σελιδοδείκτες σε Pdf χρησιμοποιώντας Python.