Diese Schritt-für-Schritt-Anleitung zeigt Ihnen, wie Sie Text aus gescanntem PDF in C# extrahieren. Wenn Sie Dokumente in eine PDF-Datei scannen, werden diese Seiten als gescannte Bilder in die PDF-Datei eingefügt. Um also Text aus der gescannten PDF-Datei zu extrahieren, müssen Sie tatsächlich Text aus Bildern in PDF in C# extrahieren, indem Sie Optical Character Recognition (OCR) anwenden.
Schritte zum Extrahieren von Text aus gescanntem PDF in C#
- Holen Sie sich Aspose.OCR for .NET vom NuGet.org-Paketmanager
- Verweis auf Aspose.OCR namespace hinzufügen
- Wenden Sie den Lizenzcode mit der SetLicense-Methode an
- Initiieren Sie eine Instanz der AsposeOcr-Klasse
- Geben Sie die Erkennungseinstellungen mit DocumentRecognitionSettings class an
- Extrahieren Sie alle PDF-Seiten mit der RecognizePDF-Methode
- Rufen Sie mithilfe der RecognitionText-Eigenschaft Text von jeder PDF-Seite ab
Mit Hilfe der obigen Schritte können Sie schnell und einfach Text aus gescannten PDFs in C# lesen. Vorher haben wir Ihnen gezeigt, wie Sie Text aus Bild in C# extrahieren. Dieses Beispiel hilft Ihnen jedoch dabei, Text aus PDF in C# abzurufen.
Code zum Extrahieren von Text aus gescanntem PDF in C#
Das obige C#-Beispiel zum Abrufen von Text aus PDF ist einfach und leicht verständlich. Wir lesen einfach eine gescannte PDF-Datei und extrahieren dann Text von jeder Seite. Ein wichtiger Punkt, den Sie hier verstehen sollten, ist jedoch die Eigenschaft DetectArea. Wenn Sie es auf true setzen, erhalten Sie mehr Genauigkeit, verringern jedoch die Verarbeitungsgeschwindigkeit der PDF-Datei. Wenn Sie es jedoch auf “false” setzen, wird die Geschwindigkeit verbessert und die Genauigkeit möglicherweise etwas verringert. Sie müssen also je nach Ihrer Situation zwischen den beiden Optionen wählen.