Denna handledning guider om hur du utför dataextraktion från fakturor med Python. Den har alla detaljer för att ställa in IDE för utvecklingen, en lista med steg som definierar programflödet och en exempelkod som demonstrerar invoice OCR-programvaran med Python. Du kommer att lära dig att anpassa detekteringsprocessen från bilder som PNG, JPEG, BMP, TIFF och GIF enligt dina krav.
Steg för faktura-OCR med Python
- Ställ in miljön att använda Aspose.OCR for Python via .NET för att extrahera fakturadata
- Skapa en instans av Aspose.Ocr för OCR-bearbetning
- Skapa en instans av klassen OcrInput för att lagra kvitton
- Lägg till kvitton i OcrInput-samlingen
- Ställ in inställningar för kvittotigenkänning och ställ in igenkänningsspråk
- Utför OCR med metoden recognize_receipt för att känna igen text från inmatningskvitton
- Visa igenkänd text från kvitton
Dessa steg beskriver hur du tillämpar OCR för kvitton med Python. Skapa en instans av Aspose.Ocr-objektet, initiera OcrInput-objektet för att hålla kvitton och skapa ReceiptRecognitionSettings-objektet för att definiera parametrarna för fakturornas OCR. Till sist, anropa metoden identifi_receipt() genom att tillhandahålla kvittolistan och inställningar för att extrahera texten.
Kod för utvinning av fakturadata med Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate and apply the license for Aspose.OCR to enable full functionality. | |
license = License() | |
license.set_license("License.lic") | |
# Create an instance of the Aspose.Ocr class for OCR processing. | |
extractTextFromReceipt = api.AsposeOcr() | |
# Initialize an OcrInput object to hold input image(s) for OCR processing. | |
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE) | |
# Add images (receipts) to the OcrInput object for recognition. | |
receiptDatas.add("Receipt1.png") | |
receiptDatas.add("Receipt2.png") | |
# Set up receipt recognition settings. | |
recognitionSettings = api.ReceiptRecognitionSettings() | |
recognitionSettings.language = api.Language.ENG # Specify the language as English. | |
# Perform OCR to recognize text from the input receipts using the specified settings. | |
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings) | |
# Get the number of recognized results (one result per input image). | |
length = results.length | |
# Loop through each result and print the recognized text for each input image. | |
for i in range(length): | |
print(results[i].recognition_text) |
Den här exempelkoden visar användningen av invoice OCR API med Python. Du kan ställa in inmatningstypen till PDF, TIFF, URL, Directory, Zip etc., och ställa in detekteringsspråk från en stor lista med språknamn i språkuppräkningen. Klassen ReceiptRecognitionSettings innehåller ett antal egenskaper som att ställa in tillåtna teckenuppsättningar , flagga för att ställa in automatisk färginversion och definiera en svart lista med tecken för att ignorera dem.
Den här artikeln har lärt oss processen att extrahera fakturatext. För att konvertera handskriven text till redigerbar och sökbar text, se artikeln om Konvertera handstil till text med Python.