Ekstrakcija podataka iz faktura pomoću Pythona

Ovaj vodič vodi o tome kako izvesti izdvajanje podataka iz faktura pomoću Pythona. Sadrži sve pojedinosti za postavljanje IDE-a za razvoj, popis koraka koji definiraju tok programa i primjer koda koji demonstrira softver OCR za fakture pomoću Pythona. Naučit ćete prilagoditi proces otkrivanja iz slika kao što su PNG, JPEG, BMP, TIFF i GIF prema vašim zahtjevima.

Koraci za OCR fakture pomoću Pythona

  1. Postavite okruženje da koristi Aspose.OCR for Python via .NET za izdvajanje podataka fakture
  2. Napravite instancu Aspose.Ocr za OCR obradu
  3. Stvorite instancu klase OcrInput za držanje računa
  4. Dodajte račune u kolekciju OcrInput
  5. Postavite postavke prepoznavanja računa i postavite jezik prepoznavanja
  6. Izvršite OCR korištenjem metode recognize_receipt za prepoznavanje teksta s potvrda o unosu
  7. Prikaz prepoznatog teksta s računa

Ovi koraci opisuju kako primijeniti OCR za račune pomoću Pythona. Stvorite instancu objekta Aspose.Ocr, inicijalizirajte objekt OcrInput za čuvanje računa i stvorite objekt ReceiptRecognitionSettings za definiranje parametara za OCR faktura. Na kraju, pozovite metodu accept_receipt() pružanjem popisa računa i postavki za izdvajanje teksta.

Kod za ekstrakciju podataka fakture pomoću Pythona

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

Ovaj primjer koda demonstrira korištenje invoice OCR API-ja pomoću Pythona. Možete postaviti vrstu unosa na PDF, TIFF, URL, Imenik, Zip itd. i postaviti jezik otkrivanja s velikog popisa naziva jezika u popisivaču jezika. Klasa ReceiptRecognitionSettings sadrži niz svojstava kao što je postavljanje dozvoljenog skupa znakova , označite za postavljanje automatske inverzije boja i definirajte crni popis znakova za njihovo ignoriranje.

Ovaj nas je članak naučio postupku izdvajanja teksta fakture. Za pretvaranje rukom pisanog teksta u tekst koji se može uređivati i pretraživati, pogledajte članak na Pretvorite rukopis u tekst pomoću Pythona.

 Hrvatski