Αυτός ο οδηγός βήμα προς βήμα σάς δείχνει πώς να εξαγάγετε κείμενο από το σαρωμένο PDF σε C#. Όταν σαρώνετε έγγραφα σε PDF, αυτές οι σελίδες προστίθενται ως σαρωμένες εικόνες μέσα στο αρχείο PDF. Έτσι, για να εξαγάγετε κείμενο από το σαρωμένο αρχείο PDF, θα πρέπει πραγματικά να εξαγάγετε κείμενο από εικόνες σε PDF σε C#, εφαρμόζοντας την Οπτική Αναγνώριση Χαρακτήρων (OCR).

Βήματα για την εξαγωγή κειμένου από σαρωμένο PDF σε C#

Λάβετε το Aspose.OCR for .NET από τον διαχειριστή πακέτων NuGet.org
Προσθήκη αναφοράς στο Aspose.OCR namespace
Εφαρμόστε τον κωδικό άδειας χρήσης χρησιμοποιώντας τη μέθοδο SetLicense
Ξεκινήστε μια παρουσία της κλάσης AsposeOcr
Καθορίστε τις ρυθμίσεις αναγνώρισης χρησιμοποιώντας DocumentRecognitionSettings class
Εξαγάγετε όλες τις σελίδες PDF χρησιμοποιώντας τη μέθοδο RecognizePDF
Λάβετε κείμενο από κάθε σελίδα PDF χρησιμοποιώντας την ιδιότητα RecognitionText

Με τη βοήθεια των παραπάνω βημάτων, μπορείτε να διαβάσετε κείμενο από σαρωμένο PDF σε C# γρήγορα και εύκολα. Νωρίτερα, σας δείξαμε πώς να Εξαγωγή κειμένου από εικόνα σε C#. Ωστόσο, αυτό το παράδειγμα σάς βοηθά να λαμβάνετε κείμενο από PDF σε C#.

Κώδικας για εξαγωγή κειμένου από σαρωμένο PDF σε C#

Το παραπάνω παράδειγμα λήψης κειμένου C# από PDF είναι απλό και κατανοητό. Απλώς διαβάζουμε ένα σαρωμένο αρχείο PDF και μετά εξάγουμε κείμενο από κάθε σελίδα. Ωστόσο, ένα σημαντικό σημείο που πρέπει να κατανοήσετε εδώ είναι η ιδιότητα DetectArea. Εάν το ορίσετε σε true τότε θα σας παρέχει μεγαλύτερη ακρίβεια αλλά θα μειώσει την ταχύτητα επεξεργασίας του PDF. Ωστόσο, ρυθμίζοντας το σε false, η ταχύτητα θα βελτιωθεί και η ακρίβεια μπορεί να μειωθεί λίγο. Επομένως, πρέπει να επιλέξετε ανάμεσα στις δύο επιλογές με βάση την κατάστασή σας.

Aspose Βάση γνώσεων

Βρείτε απαντήσεις από το API

Πώς να εξαγάγετε κείμενο από σαρωμένο PDF σε C#

Βήματα για την εξαγωγή κειμένου από σαρωμένο PDF σε C#

Κώδικας για εξαγωγή κειμένου από σαρωμένο PDF σε C#