पायथन का उपयोग करके चालान से डेटा निकालना

यह ट्यूटोरियल पायथन का उपयोग करके चालान से डेटा निष्कर्षण करने के तरीके पर मार्गदर्शन करता है। इसमें विकास के लिए IDE सेट करने के सभी विवरण, प्रोग्राम प्रवाह को परिभाषित करने वाले चरणों की एक सूची और पायथन का उपयोग करके चालान OCR सॉफ़्टवेयर का प्रदर्शन करने वाला एक नमूना कोड है। आप अपनी आवश्यकताओं के अनुसार PNG, JPEG, BMP, TIFF और GIF जैसी छवियों से पहचान प्रक्रिया को अनुकूलित करना सीखेंगे।

पायथन का उपयोग करके इनवॉइस OCR के लिए चरण

  1. इनवॉइस डेटा निकालने के लिए Aspose.OCR for Python via .NET का उपयोग करने के लिए परिवेश सेट करें
  2. OCR प्रसंस्करण के लिए Aspose.Ocr का एक उदाहरण बनाएं
  3. रसीदें रखने के लिए OcrInput वर्ग का एक उदाहरण बनाएँ
  4. OcrInput संग्रह में रसीदें जोड़ें
  5. रसीद पहचान सेटिंग सेट करें और पहचान भाषा सेट करें
  6. इनपुट रसीदों से पाठ पहचानने के लिए recognize_receipt विधि का उपयोग करके OCR निष्पादित करें
  7. रसीदों से पहचाने गए पाठ प्रदर्शित करें

ये चरण बताते हैं कि पाइथन का उपयोग करके रसीदों के लिए OCR कैसे लागू करें। Aspose.Ocr ऑब्जेक्ट का एक उदाहरण बनाएँ, रसीदों को रखने के लिए OcrInput ऑब्जेक्ट को इनिशियलाइज़ करें, और इनवॉइस OCR के लिए पैरामीटर परिभाषित करने के लिए ReceiptRecognitionSettings ऑब्जेक्ट बनाएँ। अंत में, रसीदों की सूची और टेक्स्ट निकालने के लिए सेटिंग्स प्रदान करके recognise_receipt() विधि को कॉल करें।

पायथन का उपयोग करके इनवॉइस डेटा निष्कर्षण के लिए कोड

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

यह नमूना कोड पायथन का उपयोग करके इनवॉइस OCR API के उपयोग को प्रदर्शित करता है। आप इनपुट प्रकार को PDF, TIFF, URL, Directory, Zip आदि पर सेट कर सकते हैं, और भाषा गणक में भाषा नामों की एक बड़ी सूची से पहचान भाषा सेट कर सकते हैं, ReceiptRecognitionSettings वर्ग में कई गुण होते हैं जैसे अनुमत वर्ण सेट सेट करना, स्वचालित रंग व्युत्क्रम सेट करने के लिए ध्वज और उन्हें अनदेखा करने के लिए वर्णों की एक काली सूची परिभाषित करना।

इस लेख में हमें इनवॉइस टेक्स्ट निकालने की प्रक्रिया सिखाई गई है। हस्तलिखित टेक्स्ट को संपादन योग्य और खोज योग्य टेक्स्ट में बदलने के लिए, पायथन का उपयोग करके हस्तलेखन को पाठ में बदलें पर लेख देखें।

 हिन्दी