Конвертировать отсканированный PDF в редактируемый PDF с помощью Java

Этот короткий учебник объясняет, как конвертировать отсканированный PDF в редактируемый PDF с помощью Java. Он включает детали настройки IDE, список шагов и пример кода для конвертации отсканированного PDF в поисковый PDF с использованием Java. Вы получите информацию для настройки процесса сканирования изображения и преобразования содержимого в читаемый текст.

Шаги для создания читаемого PDF на Java

  1. Настройте IDE использовать Aspose.Total for Java для преобразования отсканированного PDF в PDF, доступный для поиска
  2. Инстанцировать соответствующие лицензии продукта, чтобы избежать водяных знаков в выводе
  3. Создайте экземпляр движка распознавания, используя класс AsposeOCR
  4. Создайте экземпляр ввода, используя класс OcrInput, и загрузите в него исходный отсканированный PDF.
  5. Создайте экземпляр RecognitionSettings для установки параметров настройки во время сканирования изображения
  6. Вызовите метод AsposeOCR.Recognize() для получения данных из отсканированного PDF и сохранения их во временный PDF
  7. Загрузите промежуточный PDF в объект класса Document библиотеки Aspose.PDF и установите в нём метаданные.
  8. Сохраните окончательный PDF на диске с поисковым текстом и метаданными

Эти шаги описывают, как преобразовать изображение PDF в текст PDF с использованием Java. Создайте объект движка распознавания, подготовьте входной файл, добавив отсканированный PDF‑файл в объект OcrInput, определите параметры в объекте RecognitionSettings, вызовите метод Recognize() для сканирования данных и сохраните результаты во временный PDF‑файл. Затем загрузите временный PDF‑файл с помощью объекта Aspose.PDF.Document и добавьте метаданные или дополнительно отформатируйте его перед сохранением окончательного PDF‑файла.

Код для преобразования изображения PDF в текст с помощью Java

Этот код демонстрирует, как конвертировать PDF в поисковый PDF с помощью Java. Вы можете задать конкретный язык распознавания при сканировании PDF, установить флаг для автоматического определения языка, ограничить распознавание определёнными символами или добавить в чёрный список символы, которые вы хотите, чтобы OCR игнорировал. Также доступны параметры для выбора стратегии определения области/макета исходного документа, если это необходимо.

Эта статья научила нас процессу преобразования PDF в PDF с выделяемым текстом. Чтобы экспортировать данные из PDF‑формы в Excel, обратитесь к статье Экспорт данных из PDF‑формы в Excel с использованием Java.

 Русский