Εξαγωγή κειμένου από PDF χρησιμοποιώντας Python

Αυτός ο οδηγός περιέχει πληροφορίες σχετικά με τον τρόπο εξαγωγής κειμένου από το PDF χρησιμοποιώντας Python. Διαθέτει όλες τις λεπτομέρειες για να ρυθμίσετε το περιβάλλον, μια λίστα βημάτων και ένα δείγμα κώδικα για αντιγραφή κειμένου από PDF με μερικές κλήσεις API χρησιμοποιώντας Python. Θα μάθετε να διαβάζετε δεδομένα από μεμονωμένα ή πολλά αρχεία PDF και να εμφανίζετε το κείμενο που επιστρέφεται από αυτή τη διαδικασία.

Βήματα για να πάρετε κείμενο από PDF χρησιμοποιώντας Python

  1. Ρυθμίστε το περιβάλλον ώστε να χρησιμοποιεί το Aspose.OCR for Python via .NET για την ανάγνωση ενός PDF
  2. Δημιουργήστε το αντικείμενο AsposeOcr για αντιγραφή κειμένου από ένα PDF
  3. Δημιουργήστε το αντικείμενο κλάσης OcrInput και ορίστε τον τύπο εισαγωγής σε PDF
  4. Προσθέστε αρχεία PDF στη συλλογή εισόδου
  5. Καλέστε τη μέθοδο αναγνώρισης() για να διαβάσετε δεδομένα από τη συλλογή PDF
  6. Εμφανίστε το κείμενο αναγνώρισης από τη συλλογή που επιστράφηκε

Αυτά τα βήματα συνοψίζουν τη διαδικασία εξαγωγής κειμένου από έγγραφο PDF χρησιμοποιώντας Python. Δημιουργήστε το αντικείμενο κλάσης AsposeOcr που περιέχει μεθόδους αναγνώρισης κειμένου από PDF και πολλές άλλες μορφές. Χρησιμοποιήστε το αντικείμενο κλάσης OcrInput για να ορίσετε τον τύπο εισόδου σε PDF και να προσθέσετε τη συλλογή εισόδου των αρχείων PDF. Τέλος, καλέστε τη μέθοδο αναγνώρισης() και εμφανίστε το επιστρεφόμενο κείμενο.

Κώδικας για εξαγωγή κειμένου από PDF χρησιμοποιώντας Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Αυτός ο κώδικας δείχνει την ανάπτυξη ενός PDF OCR reader χρησιμοποιώντας Python. Η κλάση AsposeOcr περιέχει έναν αριθμό ιδιοτήτων και μεθόδων για την προσαρμογή της διαδικασίας αναγνώρισης, όπως μπορείτε να υπολογίσετε την λοξή, να διορθώσετε την ορθογραφία στο κείμενο που εντοπίστηκε και να εντοπίσετε ορθογώνιο. Εάν προσθέσετε πολλά αρχεία PDF, όλο το κείμενο από τα PDF επιστρέφεται ως μια συλλογή από συμβολοσειρές που μπορούν να εμφανιστούν επαναλαμβάνοντας την επιστρεφόμενη συλλογή.

Αυτό το άρθρο μας δίδαξε τη διαδικασία εξαγωγής κειμένου από PDF. Για να εξαγάγετε κείμενο από εικόνες, ανατρέξτε στο άρθρο στο Εξαγωγή κειμένου από εικόνα χρησιμοποιώντας Python.

 Ελληνικά