Як витягти текст зі сканованого PDF-файлу на C#

У цьому покроковому посібнику показано, як витягнути текст із відсканованого PDF у C#. Коли ви скануєте документи в PDF, ці сторінки додаються як відскановані зображення в PDF-файл. Отже, щоб отримати текст із відсканованого файлу PDF, вам доведеться витягнути текст із зображень у PDF на C#, застосувавши оптичне розпізнавання символів (OCR).

Кроки для вилучення тексту зі сканованого PDF-файлу на C#

  1. Отримайте Aspose.OCR for .NET із менеджера пакетів NuGet.org
  2. Додайте посилання на Aspose.OCR namespace
  3. Застосуйте код ліцензії за допомогою методу SetLicense
  4. Ініціювати екземпляр класу AsposeOcr
  5. Укажіть параметри розпізнавання за допомогою DocumentRecognitionSettings class
  6. Витягніть усі сторінки PDF за допомогою методу RecognizePDF
  7. Отримайте текст із кожної сторінки PDF за допомогою властивості RecognitionText

За допомогою наведених вище кроків ви можете швидко та легко читати текст зі сканованого PDF-файлу на C#. Раніше ми показали вам, як Вилучення тексту із зображення в C#. Однак цей приклад допоможе отримати текст із PDF-файлу на C#.

Код для вилучення тексту зі сканованого PDF-файлу на C#

Наведений вище приклад C# отримання тексту з PDF простий і зрозумілий. Ми просто читаємо відсканований PDF-файл, а потім витягуємо текст із кожної сторінки. Однак тут слід розуміти один важливий момент — властивість DetectArea. Якщо ви встановите значення true, це забезпечить більшу точність, але зменшить швидкість обробки PDF. Однак, встановивши значення false, швидкість покращиться, а точність може трохи знизитися. Тож вам доведеться вибирати між двома варіантами залежно від вашої ситуації.

 Українська