В этом руководстве описывается, как выполнить извлечение данных из счетов-фактур с помощью Python. В нем есть все детали для настройки IDE для разработки, список шагов, определяющих поток программы, и пример кода, демонстрирующий программное обеспечение OCR для счетов-фактур с помощью Python. Вы научитесь настраивать процесс обнаружения из изображений, таких как PNG, JPEG, BMP, TIFF и GIF, в соответствии с вашими требованиями.
Шаги для OCR счетов-фактур с использованием Python
- Настройте среду для использования Aspose.OCR for Python via .NET для извлечения данных счетов-фактур
- Создайте экземпляр Aspose.Ocr для обработки OCR
- Создайте экземпляр класса OcrInput для хранения чеков.
- Добавить квитанции в коллекцию OcrInput
- Настройте параметры распознавания чеков и выберите язык распознавания
- Выполните OCR, используя метод recognize_receipt, чтобы распознать текст из входных квитанций.
- Отображение распознанного текста из чеков
Эти шаги описывают, как применять OCR для чеков с помощью Python. Создайте экземпляр объекта Aspose.Ocr, инициализируйте объект OcrInput для хранения чеков и создайте объект ReceiptRecognitionSettings для определения параметров OCR счетов-фактур. Наконец, вызовите метод recognize_receipt(), указав список чеков и настройки для извлечения текста.
Код для извлечения данных счетов-фактур с использованием Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate and apply the license for Aspose.OCR to enable full functionality. | |
license = License() | |
license.set_license("License.lic") | |
# Create an instance of the Aspose.Ocr class for OCR processing. | |
extractTextFromReceipt = api.AsposeOcr() | |
# Initialize an OcrInput object to hold input image(s) for OCR processing. | |
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE) | |
# Add images (receipts) to the OcrInput object for recognition. | |
receiptDatas.add("Receipt1.png") | |
receiptDatas.add("Receipt2.png") | |
# Set up receipt recognition settings. | |
recognitionSettings = api.ReceiptRecognitionSettings() | |
recognitionSettings.language = api.Language.ENG # Specify the language as English. | |
# Perform OCR to recognize text from the input receipts using the specified settings. | |
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings) | |
# Get the number of recognized results (one result per input image). | |
length = results.length | |
# Loop through each result and print the recognized text for each input image. | |
for i in range(length): | |
print(results[i].recognition_text) |
Этот пример кода демонстрирует использование API распознавания счетов-фактур с использованием Python. Вы можете задать тип ввода PDF, TIFF, URL, Directory, Zip и т. д., а также задать язык определения из большого списка названий языков в перечислителе Language. Класс ReceiptRecognitionSettings содержит ряд свойств, таких как настройка допустимого набора символов, флаг для установки автоматической инверсии цвета и определение черного списка символов для их игнорирования.
Эта статья научила нас процессу извлечения текста счета-фактуры. Чтобы преобразовать рукописный текст в редактируемый и доступный для поиска текст, обратитесь к статье на Преобразование рукописного текста в печатный с помощью Python.