Denna steg för steg handledning visar hur du extraherar text från skannad PDF i C#. När du skannar dokument till en PDF läggs dessa sidor till som skannade bilder i PDF-filen. Så för att extrahera text från den skannade PDF-filen måste du faktiskt extrahera text från bilder i PDF i C# genom att använda Optical Character Recognition (OCR).
Steg för att extrahera text från skannad PDF i C#
- Skaffa Aspose.OCR for .NET från NuGet.org-pakethanteraren
- Lägg till referens till Aspose.OCR namespace
- Använd licenskoden med SetLicense-metoden
- Initiera en instans av AsposeOcr Class
- Ange igenkänningsinställningar med DocumentRecognitionSettings class
- Extrahera alla PDF-sidor med metoden RecognizePDF
- Hämta text från varje PDF-sida med egenskapen RecognitionText
Med hjälp av stegen ovan kan du snabbt och enkelt läsa text från skannad PDF i C#. Tidigare visade vi dig hur du Extrahera text från bild i C#. Det här exemplet hjälper dig dock att få text från PDF i C#.
Kod för att extrahera text från skannad PDF i C#
Ovanstående C# få text från PDF-exemplet är enkelt och lätt att förstå. Vi läser helt enkelt en skannad PDF-fil och extraherar sedan text från varje sida. Men en viktig punkt att förstå här är egenskapen DetectArea. Om du ställer in det till sant kommer det att ge dig mer exakthet men kommer att minska hastigheten på bearbetningen av PDF-filen. Men genom att ställa in den på false kommer hastigheten att förbättras och noggrannheten kan minska något. Så du måste välja mellan de två alternativen baserat på din situation.