В этом кратком руководстве подробно рассказывается о том, как извлекать текст из отсканированного PDF-файла в Java. Вы можете настроить этот процесс извлечения текста из отсканированного PDF-файла в Java, установив параметры обнаружения. Также доступна опция для выбора скорости или точности в зависимости от качества PDF и других требований приложения.
Шаги по извлечению текста из отсканированного PDF в Java
- В репозитории Maven настройте Aspose.OCR в своем проекте для чтения отсканированного текста PDF.
- Инициализировать объект AsposeOcrPdf для чтения текста из PDF
- Создайте объект класса DocumentRecognitionSettings для установки параметров распознавания.
- Установите начальную страницу и количество страниц в PDF для чтения текста
- Чтобы увеличить скорость обнаружения, установите флаг обнаружения областей на false.
- Вызовите функцию RecognizePdf, чтобы прочитать весь текст в соответствии с приведенной выше конфигурацией.
- Перебрать все извлеченные результаты со страниц PDF и отобразить их на консоли.
В процессе сканирования текста из PDF в Java инициируется объект AsposeOCRPdf, который фактически содержит функции для распознавания текста из PDF. Он поддерживает настройку процесса обнаружения, например номер начальной страницы, количество страниц PDF для чтения, а также возможность установки областей обнаружения для контроля скорости и точности. Наконец, мы анализируем коллекцию результатов, отсканированных с каждой страницы, и отображаем их на консоли.
Код для преобразования отсканированного PDF в текст на Java
Этот код использует AsposeOCRPdf для получения текста из отсканированного PDF в Java. Объект класса DocumentRecognitionSettings содержит параметры для установки конфигурации страниц либо с помощью конструктора, как показано в этом примере кода, либо путем отдельной установки StartPage и PagesNumber. Вы также можете установить язык, коррекцию перекоса изображения и количество потоков для параллельного обнаружения текста из отсканированного PDF-файла.
В этой статье мы узнали, как извлечь текст из отсканированного PDF-файла в Java вместе с настройкой процесса обнаружения. Однако, если вы хотите извлечь текст из изображения, обратитесь к статье как извлечь текст из изображения с помощью Java.