У цьому покроковому посібнику показано, як витягнути текст із відсканованого PDF у C#. Коли ви скануєте документи в PDF, ці сторінки додаються як відскановані зображення в PDF-файл. Отже, щоб отримати текст із відсканованого файлу PDF, вам доведеться витягнути текст із зображень у PDF на C#, застосувавши оптичне розпізнавання символів (OCR).
Кроки для вилучення тексту зі сканованого PDF-файлу на C#
- Отримайте Aspose.OCR for .NET із менеджера пакетів NuGet.org
- Додайте посилання на Aspose.OCR namespace
- Застосуйте код ліцензії за допомогою методу SetLicense
- Ініціювати екземпляр класу AsposeOcr
- Укажіть параметри розпізнавання за допомогою DocumentRecognitionSettings class
- Витягніть усі сторінки PDF за допомогою методу RecognizePDF
- Отримайте текст із кожної сторінки PDF за допомогою властивості RecognitionText
За допомогою наведених вище кроків ви можете швидко та легко читати текст зі сканованого PDF-файлу на C#. Раніше ми показали вам, як Вилучення тексту із зображення в C#. Однак цей приклад допоможе отримати текст із PDF-файлу на C#.
Код для вилучення тексту зі сканованого PDF-файлу на C#
Наведений вище приклад C# отримання тексту з PDF простий і зрозумілий. Ми просто читаємо відсканований PDF-файл, а потім витягуємо текст із кожної сторінки. Однак тут слід розуміти один важливий момент — властивість DetectArea. Якщо ви встановите значення true, це забезпечить більшу точність, але зменшить швидкість обробки PDF. Однак, встановивши значення false, швидкість покращиться, а точність може трохи знизитися. Тож вам доведеться вибирати між двома варіантами залежно від вашої ситуації.