Ինչպես հանել տեքստը սկանավորված PDF-ից C#-ով

Այս քայլ առ քայլ ձեռնարկը ցույց է տալիս, թե ինչպես հանել տեքստը սկանավորված PDF-ից C#-ում: Երբ փաստաթղթերը սկանավորում եք PDF-ում, այդ էջերը ավելացվում են որպես սկանավորված պատկերներ PDF ֆայլի ներսում: Այսպիսով, սկանավորված PDF ֆայլից տեքստ հանելու համար դուք իրականում ստիպված կլինեք տեքստ հանել PDF-ով պատկերներից C#-ով` կիրառելով օպտիկական նիշերի ճանաչում (OCR):

Քայլեր C#-ով սկանավորված PDF-ից տեքստ հանելու համար

  1. Ստացեք Aspose.OCR for .NET NuGet.org փաթեթի կառավարիչից
  2. Ավելացնել հղում Aspose.OCR namespace-ին
  3. Կիրառեք լիցենզիայի կոդը՝ օգտագործելով SetLicense մեթոդը
  4. Սկսեք AsposeOcr դասի օրինակ
  5. Նշեք ճանաչման կարգավորումները՝ օգտագործելով DocumentRecognitionSettings class
  6. Արդյունահանեք բոլոր PDF էջերը՝ օգտագործելով RecognizePDF մեթոդը
  7. Ստացեք տեքստ յուրաքանչյուր PDF էջից՝ օգտագործելով RecognitionText հատկությունը

Վերոնշյալ քայլերի օգնությամբ դուք կարող եք արագ և հեշտությամբ կարդալ տեքստը սկանավորված PDF-ից C#-ով: Ավելի վաղ մենք ձեզ ցույց էինք տվել, թե ինչպես կարելի է Քաղեք տեքստ պատկերից C#-ով: Այնուամենայնիվ, այս օրինակը օգնում է ձեզ ստանալ տեքստ PDF-ից C#-ով:

Կոդ՝ սկանավորված PDF-ից C#-ով տեքստ հանելու համար

Վերը նշված C#-ը PDF օրինակից ստացված տեքստը պարզ է և հեշտ հասկանալի: Մենք պարզապես կարդում ենք սկանավորված PDF ֆայլը և այնուհետև տեքստը հանում յուրաքանչյուր էջից: Այնուամենայնիվ, այստեղ հասկանալու կարևոր կետը DetectArea հատկությունն է: Եթե սահմանեք այն ճշմարիտ, ապա այն ձեզ ավելի շատ ճշգրտություն կապահովի, բայց կնվազեցնի PDF-ի մշակման արագությունը: Այնուամենայնիվ, կեղծի վրա դնելով, արագությունը կբարելավվի, իսկ ճշգրտությունը կարող է մի փոքր նվազել: Այսպիսով, դուք պետք է ընտրեք երկու տարբերակների միջև՝ ելնելով ձեր իրավիճակից:

 Հայերեն