Ovaj vodič korak po korak pokazuje vam kako izdvojiti tekst iz skenirane PDF u C#. Kada skenirate dokumente u PDF, te se stranice dodaju kao skenirane slike unutar PDF datoteke. Dakle, da biste izdvojili tekst iz skenirane PDF datoteke, zapravo ćete morati izdvojiti tekst iz slika u PDF-u u C# primjenom optičkog prepoznavanja znakova (OCR).

Koraci za izdvajanje teksta iz skeniranog PDF-a u C#

Nabavite Aspose.OCR for .NET iz upravitelja paketa NuGet.org
Dodaj referencu na Aspose.OCR namespace
Primijenite licencni kod pomoću metode SetLicense
Pokrenite instancu AsposeOcr klase
Navedite postavke prepoznavanja pomoću DocumentRecognitionSettings class
Ekstrahirajte sve PDF stranice pomoću metode RecognizePDF
Dobijte tekst sa svake PDF stranice pomoću svojstva RecognitionText

Uz pomoć gornjih koraka, možete čitati tekst iz skeniranog PDF-a u C# brzo i jednostavno. Ranije smo vam pokazali kako Ekstrakt teksta iz slike u C#. Međutim, ovaj vam primjer pomaže da dobijete tekst iz PDF-a u C#.

Kod za izdvajanje teksta iz skeniranog PDF-a u C#

Gore navedeni C# primjer dobivanja teksta iz PDF-a jednostavan je i lako razumljiv. Jednostavno čitamo skeniranu PDF datoteku i zatim izvlačimo tekst sa svake stranice. Međutim, jedna važna točka koju ovdje treba razumjeti je svojstvo DetectArea. Ako ga postavite na true, to će vam omogućiti veću točnost, ali će smanjiti brzinu obrade PDF-a. Međutim, postavljanjem na false, brzina će se poboljšati, a točnost može biti malo smanjena. Dakle, morate birati između dvije opcije na temelju vaše situacije.

Aspose Baza znanja

Pronađite odgovore pomoću API-ja

Kako izdvojiti tekst iz skeniranog PDF-a u C#

Koraci za izdvajanje teksta iz skeniranog PDF-a u C#

Kod za izdvajanje teksta iz skeniranog PDF-a u C#