Extraction de données à partir de factures à l'aide de Python

Ce didacticiel explique comment effectuer l’extraction de données à partir de factures à l’aide de Python. Il contient tous les détails pour configurer l’IDE pour le développement, une liste d’étapes définissant le déroulement du programme et un exemple de code illustrant le logiciel OCR de factures à l’aide de Python. Vous apprendrez à personnaliser le processus de détection à partir d’images telles que PNG, JPEG, BMP, TIFF et GIF selon vos besoins.

Étapes pour l’OCR des factures à l’aide de Python

  1. Définir l’environnement à utiliser Aspose.OCR for Python via .NET pour extraire les données de facture
  2. Créer une instance de Aspose.Ocr pour le traitement OCR
  3. Créer une instance de la classe OcrInput pour conserver les reçus
  4. Ajouter des reçus à la collection OcrInput
  5. Configurer les paramètres de reconnaissance des reçus et définir la langue de reconnaissance
  6. Effectuez l’OCR à l’aide de la méthode recognize_receipt pour reconnaître le texte des reçus saisis
  7. Afficher le texte reconnu à partir des reçus

Ces étapes décrivent comment appliquer OCR pour les reçus à l’aide de Python. Créez une instance de l’objet Aspose.Ocr, initialisez l’objet OcrInput pour conserver les reçus et créez l’objet ReceiptRecognitionSettings pour définir les paramètres de l’OCR des factures. Enfin, appelez la méthode recognize_receipt() en fournissant la liste des reçus et les paramètres d’extraction du texte.

Code pour l’extraction de données de facture à l’aide de Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

Cet exemple de code illustre l’utilisation de l’API OCR de factures à l’aide de Python. Vous pouvez définir le type d’entrée sur PDF, TIFF, URL, Répertoire, Zip, etc., et définir la langue de détection à partir d’une grande liste de noms de langues dans l’énumérateur de langues. La classe ReceiptRecognitionSettings contient un certain nombre de propriétés telles que la définition du jeu de caractères autorisés, l’indicateur permettant de définir l’inversion automatique des couleurs et la définition d’une liste noire de caractères pour les ignorer.

Cet article nous a montré le processus d’extraction du texte d’une facture. Pour convertir un texte manuscrit en texte modifiable et consultable, reportez-vous à l’article sur Convertir l’écriture manuscrite en texte à l’aide de Python.

 Français