Este tutorial orienta sobre como executar extração de dados de faturas usando Python. Ele tem todos os detalhes para definir o IDE para o desenvolvimento, uma lista de etapas que definem o fluxo do programa e um código de amostra demonstrando o software OCR de faturas usando Python. Você aprenderá a personalizar o processo de detecção de imagens como PNG, JPEG, BMP, TIFF e GIF de acordo com seus requisitos.
Etapas para OCR de faturas usando Python
- Defina o ambiente para usar Aspose.OCR for Python via .NET para extrair dados de fatura
- Crie uma instância do Aspose.Ocr para processamento de OCR
- Crie uma instância da classe OcrInput para armazenar recibos
- Adicionar recibos à coleção OcrInput
- Configurar configurações de reconhecimento de recibo e definir idioma de reconhecimento
- Execute OCR usando o método recognize_receipt para reconhecer texto dos recibos de entrada
- Exibir texto reconhecido dos recibos
Estas etapas descrevem como aplicar OCR para recibos usando Python. Crie uma instância do objeto Aspose.Ocr, inicialize o objeto OcrInput para armazenar recibos e crie o objeto ReceiptRecognitionSettings para definir os parâmetros para o OCR das faturas. Por fim, chame o método recognize_receipt() fornecendo a lista de recibos e as configurações para extrair o texto.
Código para extração de dados de fatura usando Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate and apply the license for Aspose.OCR to enable full functionality. | |
license = License() | |
license.set_license("License.lic") | |
# Create an instance of the Aspose.Ocr class for OCR processing. | |
extractTextFromReceipt = api.AsposeOcr() | |
# Initialize an OcrInput object to hold input image(s) for OCR processing. | |
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE) | |
# Add images (receipts) to the OcrInput object for recognition. | |
receiptDatas.add("Receipt1.png") | |
receiptDatas.add("Receipt2.png") | |
# Set up receipt recognition settings. | |
recognitionSettings = api.ReceiptRecognitionSettings() | |
recognitionSettings.language = api.Language.ENG # Specify the language as English. | |
# Perform OCR to recognize text from the input receipts using the specified settings. | |
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings) | |
# Get the number of recognized results (one result per input image). | |
length = results.length | |
# Loop through each result and print the recognized text for each input image. | |
for i in range(length): | |
print(results[i].recognition_text) |
Este código de exemplo demonstra o uso da API OCR de fatura usando Python. Você pode definir o tipo de entrada como PDF, TIFF, URL, Diretório, Zip etc., e definir o idioma de detecção de uma grande lista de nomes de idiomas no enumerador de idiomas. A classe ReceiptRecognitionSettings contém várias propriedades, como definir o conjunto de caracteres permitidos, sinalizador para definir a inversão automática de cores e definir uma lista negra de caracteres para ignorá-los.
Este artigo nos ensinou o processo de extração de texto de fatura. Para converter texto manuscrito em texto editável e pesquisável, consulte o artigo em Converter manuscrito em texto usando Python.