Как да извлечете текст от сканиран PDF в Java

Този бърз урок предоставя подробности как да извлечете текст от сканиран PDF в Java. Можете да конфигурирате този процес на извличане на текст от сканиран PDF в Java, като зададете параметрите за откриване. Налична е и опцията за избор между скорост или точност в зависимост от качеството на PDF и други изисквания на приложението.

Стъпки за извличане на текст от сканиран PDF в Java

  1. От хранилището на Maven конфигурирайте Aspose.OCR във вашия проект за четене на сканиран PDF текст
  2. Инициализирайте обект AsposeOcrPdf, за да прочетете текст от PDF
  3. Създайте екземпляр на обекта от клас DocumentRecognitionSettings за задаване на параметрите за разпознаване
  4. Задайте начална страница и брой страници в PDF за четене на текст
  5. За да увеличите скоростта на откриване, задайте флага за откриване на зони на false
  6. Извикайте функцията RecognizePdf, за да прочетете целия текст според горната конфигурация
  7. Прегледайте всички извлечени резултати от PDF страниците и ги покажете на конзолата

По време на процеса на сканиране на текст от PDF в Java се инициира обект на AsposeOCRPdf, който всъщност съдържа функции за разпознаване на текст от PDF. Той поддържа конфигуриране на процеса на откриване като номер на начална страница, брой PDF страници за четене и опция за задаване на области на откриване за контролиране на скоростта и точността. Накрая анализираме колекцията от резултати, сканирани от всяка страница, и ги показваме на конзолата.

Код за конвертиране на сканиран PDF в текст в Java

Този код използва AsposeOCRPdf за получаване на текст от сканиран PDF в Java. Обектът на класа DocumentRecognitionSettings съдържа опции за задаване на конфигурация на страници или с помощта на конструктора, както е показано в този примерен код, или чрез отделно задаване на StartPage и PagesNumber. Можете също да зададете езика, корекциите на изкривяването на изображението и броя на нишките за паралелно откриване на текст от сканирания PDF файл.

В тази статия научихме как да извличаме текст от сканиран PDF в Java заедно с конфигурацията на процеса на откриване. Ако обаче искате да извлечете текст от изображение, вижте статията на как да извлечете текст от изображение с помощта на Java.

 Български