Este tutorial rápido proporciona detalles sobre cómo extraer texto de un PDF escaneado en Java. Puede configurar este proceso de extracción de texto de un PDF escaneado en Java configurando los parámetros de detección. La opción también está disponible para seleccionar entre la velocidad o la precisión según la calidad del PDF y otros requisitos de la aplicación.

Pasos para extraer texto de un PDF escaneado en Java

Desde el repositorio de Maven, configure Aspose.OCR en su proyecto para leer texto PDF escaneado
Inicializa el objeto AsposeOcrPdf para leer el texto del PDF
Crea una instancia del objeto de clase DocumentRecognitionSettings para establecer los parámetros de reconocimiento
Establezca la página de inicio y el número de páginas en el PDF para leer texto
Para aumentar la velocidad de detección, establezca el indicador de áreas de detección en falso
Llame a la función RecognizePdf para leer todo el texto de acuerdo con la configuración anterior
Repita todos los resultados extraídos de las páginas PDF y muéstrelos en la consola

Durante el proceso para escanear texto de PDF en Java, se inicia un objeto de AsposeOCRPdf que en realidad contiene funciones para reconocer texto del PDF. Admite la configuración del proceso de detección, como el número de página de inicio, la cantidad de páginas PDF que se leerán y la opción de establecer áreas de detección para controlar la velocidad y la precisión. Finalmente, analizamos la colección de resultados escaneados de cada página y los mostramos en la consola.

Código para convertir PDF escaneado a texto en Java

Este código usa AsposeOCRPdf para obtener texto de un PDF escaneado en Java. El objeto de la clase DocumentRecognitionSettings contiene opciones para establecer la configuración de las páginas mediante el constructor, como se muestra en este código de ejemplo, o configurando StartPage y PagesNumber por separado. También puede configurar el idioma, las correcciones de inclinación de la imagen y el recuento de hilos para la detección paralela de texto del PDF escaneado.

En este artículo, hemos aprendido cómo extraer texto de un PDF escaneado en Java junto con la configuración del proceso de detección. Sin embargo, si desea extraer texto de una imagen, consulte el artículo sobre cómo extraer texto de la imagen usando Java.

Aspose Base de conocimientos

Encuentra respuestas de API

Cómo extraer texto de un PDF escaneado en Java

Pasos para extraer texto de un PDF escaneado en Java

Código para convertir PDF escaneado a texto en Java