Πώς να εξαγάγετε κείμενο από σαρωμένο PDF σε Java

Αυτό το γρήγορο σεμινάριο παρέχει λεπτομέρειες σχετικά με τον τρόπο εξαγωγής κειμένου από σαρωμένο PDF σε Java. Μπορείτε να διαμορφώσετε αυτήν τη διαδικασία εξαγωγής κειμένου από σαρωμένο PDF σε Java ορίζοντας τις παραμέτρους ανίχνευσης. Η επιλογή είναι επίσης διαθέσιμη για να κάνετε μια επιλογή μεταξύ της ταχύτητας ή της ακρίβειας ανάλογα με την ποιότητα PDF και άλλες απαιτήσεις εφαρμογής.

Βήματα για την εξαγωγή κειμένου από σαρωμένο PDF σε Java

  1. Από το αποθετήριο Maven, διαμορφώστε το Aspose.OCR στο έργο σας για ανάγνωση σαρωμένου κειμένου PDF
  2. Αρχικοποιήστε το αντικείμενο AsposeOcrPdf για ανάγνωση κειμένου από το PDF
  3. Δημιουργήστε το αντικείμενο κλάσης DocumentRecognitionSettings για τον ορισμό των παραμέτρων αναγνώρισης
  4. Ορίστε την αρχική σελίδα και τον αριθμό σελίδων στο PDF για ανάγνωση κειμένου
  5. Για να αυξήσετε την ταχύτητα ανίχνευσης, ορίστε τη σημαία ανίχνευσης περιοχών σε ψευδή
  6. Καλέστε τη συνάρτηση RecognizePdf για να διαβάσετε όλο το κείμενο σύμφωνα με την παραπάνω διαμόρφωση
  7. Επαναλάβετε όλα τα αποτελέσματα που έχουν εξαχθεί από τις σελίδες PDF και εμφανίστε τα στην κονσόλα

Κατά τη διαδικασία σάρωση κειμένου από PDF σε Java, εκκινείται ένα αντικείμενο του AsposeOCRPdf που περιέχει στην πραγματικότητα δυνατότητες αναγνώρισης κειμένου από το PDF. Υποστηρίζει τη διαμόρφωση της διαδικασίας ανίχνευσης, όπως ο αριθμός σελίδας έναρξης, ο αριθμός των σελίδων PDF προς ανάγνωση και η επιλογή ορισμού περιοχών ανίχνευσης για τον έλεγχο της ταχύτητας και της ακρίβειας. Τέλος, αναλύουμε τη συλλογή αποτελεσμάτων που σαρώθηκε από κάθε σελίδα και τα εμφανίζουμε στην κονσόλα.

Κώδικας για μετατροπή σαρωμένου PDF σε κείμενο σε Java

Αυτός ο κώδικας χρησιμοποιεί AsposeOCRPdf για λήψη κειμένου από σαρωμένο PDF σε Java. Το αντικείμενο κλάσης DocumentRecognitionSettings περιέχει επιλογές για να ορίσετε τη διαμόρφωση σελίδων είτε χρησιμοποιώντας τον κατασκευαστή όπως φαίνεται σε αυτό το δείγμα κώδικα είτε ορίζοντας ξεχωριστά τη σελίδα έναρξης και τον αριθμό σελίδων. Μπορείτε επίσης να ορίσετε τη γλώσσα, τις διορθώσεις λοξής εικόνας και τον αριθμό νημάτων για παράλληλη ανίχνευση κειμένου από το σαρωμένο PDF.

Σε αυτό το άρθρο, μάθαμε πώς να εξάγουμε κείμενο από σαρωμένο PDF σε Java μαζί με τη διαμόρφωση της διαδικασίας ανίχνευσης. Ωστόσο, εάν θέλετε να εξαγάγετε κείμενο από μια εικόνα, ανατρέξτε στο άρθρο στο πώς να εξαγάγετε κείμενο από εικόνα χρησιμοποιώντας Java.

 Ελληνικά