Ovaj vodič korak po korak pokazuje vam kako izdvojiti tekst iz skenirane PDF u C#. Kada skenirate dokumente u PDF, te se stranice dodaju kao skenirane slike unutar PDF datoteke. Dakle, da biste izdvojili tekst iz skenirane PDF datoteke, zapravo ćete morati izdvojiti tekst iz slika u PDF-u u C# primjenom optičkog prepoznavanja znakova (OCR).
Koraci za izdvajanje teksta iz skeniranog PDF-a u C#
- Nabavite Aspose.OCR for .NET iz upravitelja paketa NuGet.org
- Dodaj referencu na Aspose.OCR namespace
- Primijenite licencni kod pomoću metode SetLicense
- Pokrenite instancu AsposeOcr klase
- Navedite postavke prepoznavanja pomoću DocumentRecognitionSettings class
- Ekstrahirajte sve PDF stranice pomoću metode RecognizePDF
- Dobijte tekst sa svake PDF stranice pomoću svojstva RecognitionText
Uz pomoć gornjih koraka, možete čitati tekst iz skeniranog PDF-a u C# brzo i jednostavno. Ranije smo vam pokazali kako Ekstrakt teksta iz slike u C#. Međutim, ovaj vam primjer pomaže da dobijete tekst iz PDF-a u C#.
Kod za izdvajanje teksta iz skeniranog PDF-a u C#
Gore navedeni C# primjer dobivanja teksta iz PDF-a jednostavan je i lako razumljiv. Jednostavno čitamo skeniranu PDF datoteku i zatim izvlačimo tekst sa svake stranice. Međutim, jedna važna točka koju ovdje treba razumjeti je svojstvo DetectArea. Ako ga postavite na true, to će vam omogućiti veću točnost, ali će smanjiti brzinu obrade PDF-a. Međutim, postavljanjem na false, brzina će se poboljšati, a točnost može biti malo smanjena. Dakle, morate birati između dvije opcije na temelju vaše situacije.