Այս քայլ առ քայլ ձեռնարկը ցույց է տալիս, թե ինչպես հանել տեքստը սկանավորված PDF-ից C#-ում: Երբ փաստաթղթերը սկանավորում եք PDF-ում, այդ էջերը ավելացվում են որպես սկանավորված պատկերներ PDF ֆայլի ներսում: Այսպիսով, սկանավորված PDF ֆայլից տեքստ հանելու համար դուք իրականում ստիպված կլինեք տեքստ հանել PDF-ով պատկերներից C#-ով` կիրառելով օպտիկական նիշերի ճանաչում (OCR):
Քայլեր C#-ով սկանավորված PDF-ից տեքստ հանելու համար
- Ստացեք Aspose.OCR for .NET NuGet.org փաթեթի կառավարիչից
- Ավելացնել հղում Aspose.OCR namespace-ին
- Կիրառեք լիցենզիայի կոդը՝ օգտագործելով SetLicense մեթոդը
- Սկսեք AsposeOcr դասի օրինակ
- Նշեք ճանաչման կարգավորումները՝ օգտագործելով DocumentRecognitionSettings class
- Արդյունահանեք բոլոր PDF էջերը՝ օգտագործելով RecognizePDF մեթոդը
- Ստացեք տեքստ յուրաքանչյուր PDF էջից՝ օգտագործելով RecognitionText հատկությունը
Վերոնշյալ քայլերի օգնությամբ դուք կարող եք արագ և հեշտությամբ կարդալ տեքստը սկանավորված PDF-ից C#-ով: Ավելի վաղ մենք ձեզ ցույց էինք տվել, թե ինչպես կարելի է Քաղեք տեքստ պատկերից C#-ով: Այնուամենայնիվ, այս օրինակը օգնում է ձեզ ստանալ տեքստ PDF-ից C#-ով:
Կոդ՝ սկանավորված PDF-ից C#-ով տեքստ հանելու համար
Վերը նշված C#-ը PDF օրինակից ստացված տեքստը պարզ է և հեշտ հասկանալի: Մենք պարզապես կարդում ենք սկանավորված PDF ֆայլը և այնուհետև տեքստը հանում յուրաքանչյուր էջից: Այնուամենայնիվ, այստեղ հասկանալու կարևոր կետը DetectArea հատկությունն է: Եթե սահմանեք այն ճշմարիտ, ապա այն ձեզ ավելի շատ ճշգրտություն կապահովի, բայց կնվազեցնի PDF-ի մշակման արագությունը: Այնուամենայնիվ, կեղծի վրա դնելով, արագությունը կբարելավվի, իսկ ճշգրտությունը կարող է մի փոքր նվազել: Այսպիսով, դուք պետք է ընտրեք երկու տարբերակների միջև՝ ելնելով ձեր իրավիճակից: