Αυτό το σύντομο σεμινάριο σάς καθοδηγεί στο πώς να διαβάζετε ένα αρχείο PDF σε Java. Περιέχει κώδικα Java για την ανάγνωση αρχείου PDF έτσι ώστε πρώτα να διαβάζετε κείμενο από το PDF σε Java σε μια συμβολοσειρά και στη συνέχεια να ανακτάτε όλες τις εικόνες από το αρχείο PDF για να τις αποθηκεύσετε στο δίσκο ως JPG. Δεν χρειάζεται να εγκαταστήσετε κάποιο εργαλείο τρίτου κατασκευαστή για να διαβάζετε PDF σε Java.
Βήματα για την ανάγνωση του αρχείου PDF σε Java
- Διαμορφώστε το Aspose.PDF στο έργο σας χρησιμοποιώντας το αποθετήριο Maven για την ανάγνωση του αρχείου PDF
- Φορτώστε το δείγμα αρχείου PDF στο αντικείμενο κλάσης Document
- Δημιουργήστε ένα αντικείμενο κλάσης TextAbsorber που μπορεί να διαβάσει ολόκληρο το κείμενο από το αρχείο PDF
- Διαβάστε κείμενο PDF από το φορτωμένο αρχείο χρησιμοποιώντας το αντικείμενο κλάσης TextAbsorber
- Εμφάνιση ολόκληρου του κειμένου που διαβάστηκε από το αρχείο PDF στην κονσόλα
- Επαναλάβετε όλες τις σελίδες του αρχείου PDF για πρόσβαση στις εικόνες
- Αναλύστε όλες τις εικόνες σε κάθε συλλογή εικόνων σελίδας και αποθηκεύστε τις στο δίσκο
Σε αυτό το γρήγορο, βήμα προς βήμα σεμινάριο, φορτώνουμε πρώτα το αρχείο PDF στόχου και, στη συνέχεια, εκκινούμε το αντικείμενο κλάσης TextAbsorber που έχει τη δυνατότητα αναζήτησης κειμένου σε όλες τις σελίδες του PDF. Ολόκληρο αυτό το κείμενο επιστρέφεται σε μια συμβολοσειρά που μπορεί να εμφανιστεί ή να υποβληθεί σε επεξεργασία σύμφωνα με τις απαιτήσεις. Παρομοίως, μπορούμε να αναλύσουμε όλες τις εικόνες στη συλλογή εικόνων και να τις αποθηκεύσουμε στο δίσκο σε οποιαδήποτε μορφή, όπως το αποθηκεύσαμε ως JPG σε αυτό το σεμινάριο.
Κώδικας για ανάγνωση PDF χρησιμοποιώντας Java
Σε αυτό το δείγμα κώδικα, χρησιμοποιήσαμε την κλάση TextAbsorber και τη συνάρτηση getImages() του Page.getResources() για να διαβάσουμε PDF χρησιμοποιώντας Java. Το αντικείμενο TextAbsorber χρησιμοποιείται για την ανάγνωση κειμένου από τη συνάρτηση αποδοχής στη Συλλογή Σελίδων PDF. Ενώ η συνάρτηση getImages() της συλλογής getResources() επιστρέφει όλες τις εικόνες σε μια σελίδα.
Σημειώστε ότι αυτά τα βήματα για την ανάγνωση PDF σε Java μπορούν να εκτελεστούν σε οποιοδήποτε από τα λειτουργικά συστήματα όπως Windows, Linux ή macOS. Εάν θέλετε να μάθετε περισσότερα σχετικά με την εργασία με αρχεία PDF, ανατρέξτε στο άρθρο στο πώς να διαβάσετε σελιδοδείκτες σε PDF χρησιμοποιώντας Java.