У цьому покроковому посібнику показано, як витягнути текст із відсканованого PDF у C#. Коли ви скануєте документи в PDF, ці сторінки додаються як відскановані зображення в PDF-файл. Отже, щоб отримати текст із відсканованого файлу PDF, вам доведеться витягнути текст із зображень у PDF на C#, застосувавши оптичне розпізнавання символів (OCR).

Кроки для вилучення тексту зі сканованого PDF-файлу на C#

Отримайте Aspose.OCR for .NET із менеджера пакетів NuGet.org
Додайте посилання на Aspose.OCR namespace
Застосуйте код ліцензії за допомогою методу SetLicense
Ініціювати екземпляр класу AsposeOcr
Укажіть параметри розпізнавання за допомогою DocumentRecognitionSettings class
Витягніть усі сторінки PDF за допомогою методу RecognizePDF
Отримайте текст із кожної сторінки PDF за допомогою властивості RecognitionText

За допомогою наведених вище кроків ви можете швидко та легко читати текст зі сканованого PDF-файлу на C#. Раніше ми показали вам, як Вилучення тексту із зображення в C#. Однак цей приклад допоможе отримати текст із PDF-файлу на C#.

Код для вилучення тексту зі сканованого PDF-файлу на C#

Наведений вище приклад C# отримання тексту з PDF простий і зрозумілий. Ми просто читаємо відсканований PDF-файл, а потім витягуємо текст із кожної сторінки. Однак тут слід розуміти один важливий момент — властивість DetectArea. Якщо ви встановите значення true, це забезпечить більшу точність, але зменшить швидкість обробки PDF. Однак, встановивши значення false, швидкість покращиться, а точність може трохи знизитися. Тож вам доведеться вибирати між двома варіантами залежно від вашої ситуації.

База знань Aspose

Знайдіть відповіді за допомогою API

Як витягти текст зі сканованого PDF-файлу на C#

Кроки для вилучення тексту зі сканованого PDF-файлу на C#

Код для вилучення тексту зі сканованого PDF-файлу на C#