Ինչպես հանել տեքստը սկանավորված PDF-ից Java-ում

Այս արագ ձեռնարկը մանրամասներ է տալիս այն մասին, թե ինչպես արտահանել տեքստ սկանավորված PDF-ից Java-ում: Դուք կարող եք կարգավորել Java-ում սկանավորված PDF-ից տեքստը հանելու այս գործընթացը՝ սահմանելով հայտնաբերման պարամետրերը: Ընտրանքը հասանելի է նաև արագության կամ ճշգրտության միջև ընտրություն կատարելու համար՝ կախված PDF որակից և հավելվածի այլ պահանջներից:

Java-ում սկանավորված PDF-ից տեքստ հանելու քայլեր

  1. Maven-ի պահոցից կարգավորեք Aspose.OCR-ը ձեր նախագծում՝ կարդալու սկանավորված PDF տեքստը
  2. Նախաձեռնեք AsposeOcrPdf օբյեկտ՝ PDF-ից տեքստ կարդալու համար
  3. Ստուգեք DocumentRecognitionSettings դասի օբյեկտը ճանաչման պարամետրերը սահմանելու համար
  4. Սահմանեք մեկնարկային էջը և էջերի քանակը PDF-ում՝ տեքստը կարդալու համար
  5. Հայտնաբերման արագությունը մեծացնելու համար հայտնաբերման տարածքների դրոշը դրեք false-ի
  6. Զանգահարեք RecognizePdf ֆունկցիան՝ ամբողջ տեքստը վերը նշված կոնֆիգուրացիայի համաձայն կարդալու համար
  7. Կրկնեք PDF էջերից ստացված բոլոր արդյունքները և ցուցադրեք դրանք վահանակի վրա

Java* PDF-ից տեքստը սկանավորելու գործընթացում գործարկվում է AsposeOCRPdf-ի օբյեկտ, որն իրականում պարունակում է PDF-ից տեքստը ճանաչելու գործառույթներ: Այն աջակցում է հայտնաբերման գործընթացի կազմաձևմանը, ինչպիսիք են մեկնարկային էջի համարը, ընթերցվող PDF էջերի քանակը և արագությունը և ճշգրտությունը վերահսկելու համար հայտնաբերման տարածքները սահմանելու տարբերակը: Ի վերջո, մենք վերլուծում ենք յուրաքանչյուր էջից սկանավորված արդյունքների հավաքածուն և ցուցադրում դրանք վահանակի վրա:

Կոդ՝ սկանավորված PDF-ը Java-ով տեքստի վերածելու համար

Այս կոդը օգտագործում է AsposeOCRPdf՝ Java-ում սկանավորված PDF-ից տեքստ ստանալու համար*: DocumentRecognitionSettings դասի օբյեկտը պարունակում է էջերի կոնֆիգուրացիա սահմանելու ընտրանքներ կամ օգտագործելով կոնստրուկտորը, ինչպես ցույց է տրված այս օրինակելի կոդը, կամ առանձին դնելով StartPage-ը և PagesNumber-ը: Դուք կարող եք նաև սահմանել լեզուն, պատկերի թեքության ուղղումները և թելերի քանակը սկանավորված PDF-ից տեքստի զուգահեռ հայտնաբերման համար:

Այս հոդվածում մենք սովորեցինք, թե ինչպես հանել տեքստը սկանավորված PDF-ից Java-ում հայտնաբերման գործընթացի կազմաձևման հետ մեկտեղ: Այնուամենայնիվ, եթե ցանկանում եք նկարից տեքստ հանել, տես ինչպես հանել տեքստը պատկերից Java-ի միջոցով-ի հոդվածը:

 Հայերեն