استخراج البيانات من الفواتير باستخدام بايثون

يرشدك هذا البرنامج التعليمي إلى كيفية إجراء استخراج البيانات من الفواتير باستخدام Python. يحتوي على كل التفاصيل اللازمة لتعيين بيئة التطوير المتكاملة للتطوير، وقائمة بالخطوات التي تحدد تدفق البرنامج، ونموذج كود يوضح برنامج التعرف الضوئي على الحروف للفواتير باستخدام Python. ستتعلم كيفية تخصيص عملية الكشف من الصور مثل PNG وJPEG وBMP وTIFF وGIF وفقًا لمتطلباتك.

خطوات التعرف الضوئي على الحروف للفواتير باستخدام Python

  1. قم بتعيين البيئة لاستخدام Aspose.OCR for Python via .NET لاستخراج بيانات الفاتورة
  2. إنشاء مثيل لـ Aspose.Ocr لمعالجة التعرف الضوئي على الحروف
  3. إنشاء مثيل لفئة OcrInput لتخزين الإيصالات
  4. إضافة الإيصالات إلى مجموعة OcrInput
  5. إعداد إعدادات التعرف على الإيصالات وتعيين لغة التعرف
  6. قم بإجراء التعرف الضوئي على الحروف باستخدام طريقة recognize_receipt للتعرف على النص من إيصالات الإدخال
  7. عرض النص المعترف به من الإيصالات

تصف هذه الخطوات كيفية تطبيق التعرف الضوئي على الحروف للإيصالات باستخدام Python. أنشئ مثيلًا لكائن Aspose.Ocr، وقم بتهيئة كائن OcrInput لحفظ الإيصالات، وأنشئ كائن ReceiptRecognitionSettings لتحديد معلمات التعرف الضوئي على الحروف للفواتير. وأخيرًا، قم باستدعاء طريقة identify_receipt() من خلال توفير قائمة الإيصالات والإعدادات لاستخراج النص.

كود استخراج بيانات الفاتورة باستخدام بايثون

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

يوضح هذا الكود النموذجي استخدام واجهة برمجة تطبيقات التعرف الضوئي على الحروف الخاصة بالفواتير باستخدام Python. يمكنك تعيين نوع الإدخال إلى PDF أو TIFF أو URL أو Directory أو Zip وما إلى ذلك، وتعيين لغة الكشف من قائمة كبيرة من أسماء اللغات في مُعَدِّد اللغة، وتحتوي فئة ReceiptRecognitionSettings على عدد من الخصائص مثل تعيين مجموعة الأحرف المسموح بها، والعلم لتعيين عكس الألوان تلقائيًا وتحديد قائمة سوداء من الأحرف لتجاهلها.

لقد علمتنا هذه المقالة عملية استخراج نص الفاتورة. لتحويل النص المكتوب بخط اليد إلى نص قابل للتحرير والبحث، راجع المقالة على تحويل الكتابة اليدوية إلى نص باستخدام بايثون.

 عربي