Este tutorial rápido proporciona detalles sobre cómo extraer texto de un PDF escaneado en Java. Puede configurar este proceso de extracción de texto de un PDF escaneado en Java configurando los parámetros de detección. La opción también está disponible para seleccionar entre la velocidad o la precisión según la calidad del PDF y otros requisitos de la aplicación.
Pasos para extraer texto de un PDF escaneado en Java
- Desde el repositorio de Maven, configure Aspose.OCR en su proyecto para leer texto PDF escaneado
- Inicializa el objeto AsposeOcrPdf para leer el texto del PDF
- Crea una instancia del objeto de clase DocumentRecognitionSettings para establecer los parámetros de reconocimiento
- Establezca la página de inicio y el número de páginas en el PDF para leer texto
- Para aumentar la velocidad de detección, establezca el indicador de áreas de detección en falso
- Llame a la función RecognizePdf para leer todo el texto de acuerdo con la configuración anterior
- Repita todos los resultados extraídos de las páginas PDF y muéstrelos en la consola
Durante el proceso para escanear texto de PDF en Java, se inicia un objeto de AsposeOCRPdf que en realidad contiene funciones para reconocer texto del PDF. Admite la configuración del proceso de detección, como el número de página de inicio, la cantidad de páginas PDF que se leerán y la opción de establecer áreas de detección para controlar la velocidad y la precisión. Finalmente, analizamos la colección de resultados escaneados de cada página y los mostramos en la consola.
Código para convertir PDF escaneado a texto en Java
Este código usa AsposeOCRPdf para obtener texto de un PDF escaneado en Java. El objeto de la clase DocumentRecognitionSettings contiene opciones para establecer la configuración de las páginas mediante el constructor, como se muestra en este código de ejemplo, o configurando StartPage y PagesNumber por separado. También puede configurar el idioma, las correcciones de inclinación de la imagen y el recuento de hilos para la detección paralela de texto del PDF escaneado.
En este artículo, hemos aprendido cómo extraer texto de un PDF escaneado en Java junto con la configuración del proceso de detección. Sin embargo, si desea extraer texto de una imagen, consulte el artículo sobre cómo extraer texto de la imagen usando Java.