استخراج النص من PDF باستخدام Python

يحتوي هذا الدليل على معلومات حول كيفية استخراج نص من PDF باستخدام Python. يحتوي على كل التفاصيل اللازمة لتعيين البيئة، وقائمة بالخطوات، ونموذج تعليمات برمجية لـ استخراج نص من PDF باستخدام عدد قليل من مكالمات واجهة برمجة التطبيقات باستخدام Python. ستتعلم كيفية قراءة البيانات من ملفات PDF واحدة أو متعددة وعرض النص الذي تم إرجاعه من هذه العملية.

خطوات استخراج النص من ملف PDF باستخدام Python

  1. قم بتعيين البيئة لاستخدام Aspose.OCR for Python via .NET لقراءة ملف PDF
  2. إنشاء الكائن AsposeOcr لاستخراج النص من ملف PDF
  3. قم بإنشاء كائن فئة OcrInput وقم بتعيين نوع الإدخال إلى PDF
  4. إضافة ملفات PDF إلى مجموعة الإدخال
  5. استدعاء طريقة identify() لقراءة البيانات من مجموعة PDF
  6. عرض نص التعرف من المجموعة المرتجعة

تلخص هذه الخطوات عملية استخراج النص من مستند PDF باستخدام Python. قم بإنشاء كائن فئة AsposeOcr الذي يحتوي على طرق للتعرف على النص من PDF والعديد من التنسيقات الأخرى. استخدم كائن فئة OcrInput لتعيين نوع الإدخال إلى PDF وإضافة مجموعة الإدخال لملفات PDF. أخيرًا، قم باستدعاء طريقة identify() وعرض النص المُرجع.

كود لاستخراج النص من PDF باستخدام Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

يوضح هذا الكود تطوير قارئ PDF OCR باستخدام Python. تحتوي فئة AsposeOcr على عدد من الخصائص والطرق لتخصيص عملية التعرف مثل إمكانية حساب الانحراف وتصحيح التهجئات في النص المكتشف واكتشاف المستطيل. إذا أضفت ملفات PDF متعددة، فسيتم إرجاع كل النص من ملفات PDF كمجموعة من السلاسل التي يمكن عرضها عن طريق تكرار المجموعة المرتجعة.

لقد علمتنا هذه المقالة عملية استخراج النص من ملف PDF. لاستخراج النص من الصور، راجع المقالة على استخراج النص من الصورة باستخدام بايثون.

 عربي