Este tutorial paso a paso le muestra cómo extraer texto de PDF escaneado en C#. Cuando escanea documentos en un PDF, esas páginas se agregan como imágenes escaneadas dentro del archivo PDF. Entonces, para extraer texto del archivo PDF escaneado, en realidad tendrá que extraer texto de imágenes en PDF en C# mediante la aplicación de reconocimiento óptico de caracteres (OCR).
Pasos para extraer texto de un PDF escaneado en C#
- Obtenga Aspose.OCR for .NET del administrador de paquetes de NuGet.org
- Agregar referencia a Aspose.OCR namespace
- Aplicar el código de licencia usando el método SetLicense
- Iniciar una instancia de AsposeOcr Class
- Especifique la configuración de reconocimiento usando DocumentRecognitionSettings class
- Extraiga todas las páginas PDF usando el método RecognizePDF
- Obtenga texto de cada página PDF usando la propiedad RecognitionText
Con la ayuda de los pasos anteriores, puede leer el texto de un PDF escaneado en C# de forma rápida y sencilla. Anteriormente, le mostramos cómo Extraer texto de la imagen en C#. Sin embargo, este ejemplo lo ayuda a obtener texto de PDF en C#.
Código para extraer texto de un PDF escaneado en C#
El ejemplo anterior de obtener texto de PDF en C# es simple y fácil de entender. Simplemente estamos leyendo un archivo PDF escaneado y luego extrayendo el texto de cada página. Sin embargo, un punto importante a entender aquí es la propiedad DetectArea. Si lo establece en verdadero, le proporcionará más precisión pero reducirá la velocidad de procesamiento del PDF. Sin embargo, al establecerlo en falso, la velocidad mejorará y la precisión podría reducirse un poco. Así que tienes que elegir entre las dos opciones en función de tu situación.