Extração de dados de faturas usando Python

Este tutorial orienta sobre como executar extração de dados de faturas usando Python. Ele tem todos os detalhes para definir o IDE para o desenvolvimento, uma lista de etapas que definem o fluxo do programa e um código de amostra demonstrando o software OCR de faturas usando Python. Você aprenderá a personalizar o processo de detecção de imagens como PNG, JPEG, BMP, TIFF e GIF de acordo com seus requisitos.

Etapas para OCR de faturas usando Python

  1. Defina o ambiente para usar Aspose.OCR for Python via .NET para extrair dados de fatura
  2. Crie uma instância do Aspose.Ocr para processamento de OCR
  3. Crie uma instância da classe OcrInput para armazenar recibos
  4. Adicionar recibos à coleção OcrInput
  5. Configurar configurações de reconhecimento de recibo e definir idioma de reconhecimento
  6. Execute OCR usando o método recognize_receipt para reconhecer texto dos recibos de entrada
  7. Exibir texto reconhecido dos recibos

Estas etapas descrevem como aplicar OCR para recibos usando Python. Crie uma instância do objeto Aspose.Ocr, inicialize o objeto OcrInput para armazenar recibos e crie o objeto ReceiptRecognitionSettings para definir os parâmetros para o OCR das faturas. Por fim, chame o método recognize_receipt() fornecendo a lista de recibos e as configurações para extrair o texto.

Código para extração de dados de fatura usando Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

Este código de exemplo demonstra o uso da API OCR de fatura usando Python. Você pode definir o tipo de entrada como PDF, TIFF, URL, Diretório, Zip etc., e definir o idioma de detecção de uma grande lista de nomes de idiomas no enumerador de idiomas. A classe ReceiptRecognitionSettings contém várias propriedades, como definir o conjunto de caracteres permitidos, sinalizador para definir a inversão automática de cores e definir uma lista negra de caracteres para ignorá-los.

Este artigo nos ensinou o processo de extração de texto de fatura. Para converter texto manuscrito em texto editável e pesquisável, consulte o artigo em Converter manuscrito em texto usando Python.

 Português