Этот короткий учебник объясняет, как конвертировать отсканированный PDF в редактируемый PDF с помощью Java. Он включает детали настройки IDE, список шагов и пример кода для конвертации отсканированного PDF в поисковый PDF с использованием Java. Вы получите информацию для настройки процесса сканирования изображения и преобразования содержимого в читаемый текст.
Шаги для создания читаемого PDF на Java
- Настройте IDE использовать Aspose.Total for Java для преобразования отсканированного PDF в PDF, доступный для поиска
- Инстанцировать соответствующие лицензии продукта, чтобы избежать водяных знаков в выводе
- Создайте экземпляр движка распознавания, используя класс AsposeOCR
- Создайте экземпляр ввода, используя класс OcrInput, и загрузите в него исходный отсканированный PDF.
- Создайте экземпляр RecognitionSettings для установки параметров настройки во время сканирования изображения
- Вызовите метод AsposeOCR.Recognize() для получения данных из отсканированного PDF и сохранения их во временный PDF
- Загрузите промежуточный PDF в объект класса Document библиотеки Aspose.PDF и установите в нём метаданные.
- Сохраните окончательный PDF на диске с поисковым текстом и метаданными
Эти шаги описывают, как преобразовать изображение PDF в текст PDF с использованием Java. Создайте объект движка распознавания, подготовьте входной файл, добавив отсканированный PDF‑файл в объект OcrInput, определите параметры в объекте RecognitionSettings, вызовите метод Recognize() для сканирования данных и сохраните результаты во временный PDF‑файл. Затем загрузите временный PDF‑файл с помощью объекта Aspose.PDF.Document и добавьте метаданные или дополнительно отформатируйте его перед сохранением окончательного PDF‑файла.
Код для преобразования изображения PDF в текст с помощью Java
Этот код демонстрирует, как конвертировать PDF в поисковый PDF с помощью Java. Вы можете задать конкретный язык распознавания при сканировании PDF, установить флаг для автоматического определения языка, ограничить распознавание определёнными символами или добавить в чёрный список символы, которые вы хотите, чтобы OCR игнорировал. Также доступны параметры для выбора стратегии определения области/макета исходного документа, если это необходимо.
Эта статья научила нас процессу преобразования PDF в PDF с выделяемым текстом. Чтобы экспортировать данные из PDF‑формы в Excel, обратитесь к статье Экспорт данных из PDF‑формы в Excel с использованием Java.