Deze tutorial begeleidt je bij het uitvoeren van data-extractie uit facturen met Python. Het bevat alle details om de IDE voor de ontwikkeling in te stellen, een lijst met stappen die de programmastroom definiëren en een voorbeeldcode die de factuur-OCR-software met Python demonstreert. Je leert hoe je het detectieproces van afbeeldingen zoals PNG, JPEG, BMP, TIFF en GIF aanpast aan jouw vereisten.
Stappen voor factuur-OCR met behulp van Python
- Stel de omgeving in om Aspose.OCR for Python via .NET te gebruiken voor het extraheren van factuurgegevens
- Maak een instantie van de Aspose.Ocr voor OCR-verwerking
- Maak een instantie van de OcrInput-klasse voor het bewaren van ontvangstbewijzen
- Voeg ontvangstbewijzen toe aan de OcrInput-collectie
- Instellingen voor ontvangstherkenning instellen en herkenningstaal instellen
- Voer OCR uit met behulp van de recognize_receipt-methode om tekst uit de invoerontvangsten te herkennen
- Herkende tekst van de bonnen weergeven
Deze stappen beschrijven hoe u OCR voor ontvangstbewijzen toepast met Python. Maak een instantie van het Aspose.Ocr-object, initialiseer het OcrInput-object voor het bewaren van ontvangstbewijzen en maak het ReceiptRecognitionSettings-object voor het definiëren van de parameters voor de OCR van de facturen. Roep ten slotte de recognize_receipt()-methode aan door de lijst met ontvangstbewijzen en instellingen voor het extraheren van de tekst op te geven.
Code voor het extraheren van factuurgegevens met behulp van Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate and apply the license for Aspose.OCR to enable full functionality. | |
license = License() | |
license.set_license("License.lic") | |
# Create an instance of the Aspose.Ocr class for OCR processing. | |
extractTextFromReceipt = api.AsposeOcr() | |
# Initialize an OcrInput object to hold input image(s) for OCR processing. | |
receiptDatas = api.OcrInput(api.InputType.SINGLE_IMAGE) | |
# Add images (receipts) to the OcrInput object for recognition. | |
receiptDatas.add("Receipt1.png") | |
receiptDatas.add("Receipt2.png") | |
# Set up receipt recognition settings. | |
recognitionSettings = api.ReceiptRecognitionSettings() | |
recognitionSettings.language = api.Language.ENG # Specify the language as English. | |
# Perform OCR to recognize text from the input receipts using the specified settings. | |
results = extractTextFromReceipt.recognize_receipt(receiptDatas, recognitionSettings) | |
# Get the number of recognized results (one result per input image). | |
length = results.length | |
# Loop through each result and print the recognized text for each input image. | |
for i in range(length): | |
print(results[i].recognition_text) |
Deze voorbeeldcode demonstreert het gebruik van de factuur OCR API met Python. U kunt het invoertype instellen op PDF, TIFF, URL, Directory, Zip etc. en de detectietaal instellen uit een grote lijst met taalnamen in de Language enumerator. De klasse ReceiptRecognitionSettings bevat een aantal eigenschappen, zoals het instellen van de toegestane tekens, een vlag om automatische kleurinversie in te stellen en een zwarte lijst met tekens te definiëren om ze te negeren.
Dit artikel heeft ons het proces van het extraheren van factuurtekst geleerd. Om handgeschreven tekst om te zetten naar bewerkbare en doorzoekbare tekst, raadpleeg het artikel op Handschrift naar tekst converteren met Python.