Този урок стъпка по стъпка ви показва как да извлечете текст от сканирани PDF в C#. Когато сканирате документи в PDF, тези страници се добавят като сканирани изображения в PDF файла. Така че, за да извлечете текст от сканирания PDF файл, всъщност ще трябва да извлечете текст от изображения в PDF в C#, като приложите оптично разпознаване на знаци (OCR).

Стъпки за извличане на текст от сканиран PDF в C#

Вземете Aspose.OCR for .NET от мениджъра на пакети NuGet.org
Добавете препратка към Aspose.OCR namespace
Приложете лицензния код, като използвате метода SetLicense
Инициирайте екземпляр на AsposeOcr Class
Посочете настройките за разпознаване чрез DocumentRecognitionSettings class
Извлечете всички PDF страници с помощта на метода RecognizePDF
Вземете текст от всяка PDF страница, като използвате свойството RecognitionText

С помощта на горните стъпки можете да четете текст от сканиран PDF в C# бързо и лесно. По-рано ви показахме как да Извличане на текст от изображение в C#. Този пример обаче ви помага да получите текст от PDF в C#.

Код за извличане на текст от сканиран PDF в C#

Горният C# пример за получаване на текст от PDF е прост и лесен за разбиране. Ние просто четем сканиран PDF файл и след това извличаме текст от всяка страница. Въпреки това, един важен момент, който трябва да разберете тук, е свойството DetectArea. Ако го зададете на true, това ще ви осигури по-голяма точност, но ще намали скоростта на обработка на PDF файла. Въпреки това, като го зададете на false, скоростта ще се подобри и точността може да бъде малко намалена. Така че трябва да изберете между двете опции въз основа на вашата ситуация.

Aspose База знания

Намерете отговори чрез API

Как да извлечете текст от сканиран PDF в C#

Стъпки за извличане на текст от сканиран PDF в C#

Код за извличане на текст от сканиран PDF в C#