Извлечение данных из счетов-фактур с использованием Python

В этом руководстве описывается, как выполнить извлечение данных из счетов-фактур с помощью Python. В нем есть все детали для настройки IDE для разработки, список шагов, определяющих поток программы, и пример кода, демонстрирующий программное обеспечение OCR для счетов-фактур с помощью Python. Вы научитесь настраивать процесс обнаружения из изображений, таких как PNG, JPEG, BMP, TIFF и GIF, в соответствии с вашими требованиями.

Шаги для OCR счетов-фактур с использованием Python

  1. Настройте среду для использования Aspose.OCR for Python via .NET для извлечения данных счетов-фактур
  2. Создайте экземпляр Aspose.Ocr для обработки OCR
  3. Создайте экземпляр класса OcrInput для хранения чеков.
  4. Добавить квитанции в коллекцию OcrInput
  5. Настройте параметры распознавания чеков и выберите язык распознавания
  6. Выполните OCR, используя метод recognize_receipt, чтобы распознать текст из входных квитанций.
  7. Отображение распознанного текста из чеков

Эти шаги описывают, как применять OCR для чеков с помощью Python. Создайте экземпляр объекта Aspose.Ocr, инициализируйте объект OcrInput для хранения чеков и создайте объект ReceiptRecognitionSettings для определения параметров OCR счетов-фактур. Наконец, вызовите метод recognize_receipt(), указав список чеков и настройки для извлечения текста.

Код для извлечения данных счетов-фактур с использованием Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate and apply the license for Aspose.OCR to enable full functionality.
license = License()
license.set_license("License.lic")
# Create an instance of the Aspose.Ocr class for OCR processing.
extractTextFromReceipt = api.AsposeOcr()
# Initialize an OcrInput object to hold input image(s) for OCR processing.
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE)
# Add images (receipts) to the OcrInput object for recognition.
receiptDatas.add("Receipt1.png")
receiptDatas.add("Receipt2.png")
# Set up receipt recognition settings.
recognitionSettings = api.ReceiptRecognitionSettings()
recognitionSettings.language = api.Language.ENG # Specify the language as English.
# Perform OCR to recognize text from the input receipts using the specified settings.
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings)
# Get the number of recognized results (one result per input image).
length = results.length
# Loop through each result and print the recognized text for each input image.
for i in range(length):
print(results[i].recognition_text)

Этот пример кода демонстрирует использование API распознавания счетов-фактур с использованием Python. Вы можете задать тип ввода PDF, TIFF, URL, Directory, Zip и т. д., а также задать язык определения из большого списка названий языков в перечислителе Language. Класс ReceiptRecognitionSettings содержит ряд свойств, таких как настройка допустимого набора символов, флаг для установки автоматической инверсии цвета и определение черного списка символов для их игнорирования.

Эта статья научила нас процессу извлечения текста счета-фактуры. Чтобы преобразовать рукописный текст в редактируемый и доступный для поиска текст, обратитесь к статье на Преобразование рукописного текста в печатный с помощью Python.

 Русский