Duomenų ištraukimas iš sąskaitų faktūrų naudojant Python

Šioje mokymo programoje paaiškinama, kaip atlikti duomenų ištraukimą iš sąskaitų faktūrų naudojant Python. Jame yra visa informacija, skirta IDE nustatyti kūrimui, veiksmų, apibrėžiančių programos eigą, sąrašas ir pavyzdinis kodas, rodantis sąskaitos faktūros OCR programinę įrangą naudojant Python. Išmoksite tinkinti aptikimo procesą naudodami tokius vaizdus kaip PNG, JPEG, BMP, TIFF ir GIF pagal savo reikalavimus.

Sąskaitų faktūrų OCR veiksmai naudojant Python

  1. Nustatykite aplinką, kad sąskaitų faktūrų duomenims išgauti būtų naudojama Aspose.OCR for Python via .NET
  2. Sukurkite Aspose.Ocr egzempliorių OCR apdorojimui
  3. Sukurkite klasės OcrInput egzempliorių, kad galėtumėte laikyti kvitus
  4. Pridėkite kvitus į OcrInput rinkinį
  5. Nustatykite kvito atpažinimo nustatymus ir atpažinimo kalbą
  6. Atlikite OCR naudodami recognize_receipt metodą, kad atpažintumėte tekstą iš įvesties kvitų
  7. Rodyti atpažintą tekstą iš kvitų

Šie veiksmai aprašo, kaip taikyti OCR kvitams naudojant Python. Sukurkite objekto Aspose.Ocr egzempliorių, inicijuokite objektą OcrInput, kad galėtumėte laikyti kvitus, ir sukurkite objektą ReceiptRecognitionSettings, skirtą sąskaitų faktūrų OCR parametrams apibrėžti. Galiausiai iškvieskite atpažinimo_receipt() metodą, pateikdami kvitų sąrašą ir teksto ištraukimo nustatymus.

Sąskaitų faktūrų duomenų išgavimo naudojant Python kodas

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

Šis pavyzdinis kodas parodo sąskaitos faktūros OCR API naudojimą naudojant Python. Galite nustatyti įvesties tipą į PDF, TIFF, URL, katalogą, ZIP ir tt ir nustatyti aptikimo kalbą iš didelio kalbų pavadinimų sąrašo kalbų sąraše. Klasėje ReceiptRecognitionSettings yra daug ypatybių, pvz., leidžiamų simbolių rinkinio nustatymas. , pažymėkite, kad nustatytumėte automatinį spalvų inversiją ir apibrėžtumėte juodąjį simbolių sąrašą, kad juos ignoruotumėte.

Šis straipsnis išmokė mus išgauti sąskaitos faktūros tekstą. Norėdami konvertuoti ranka rašytą tekstą į redaguojamą ir ieškomą tekstą, žr. straipsnį Konvertuokite rašyseną ranka į tekstą naudodami Python.

 Latviski