Ինչպես հանել տեքստը սկանավորված PDF-ից Java-ում

Այս արագ ձեռնարկը մանրամասներ է տալիս այն մասին, թե ինչպես արտահանել տեքստ սկանավորված PDF-ից Java-ում: Դուք կարող եք կարգավորել Java-ում սկանավորված PDF-ից տեքստը հանելու այս գործընթացը՝ սահմանելով հայտնաբերման պարամետրերը: Ընտրանքը հասանելի է նաև արագության կամ ճշգրտության միջև ընտրություն կատարելու համար՝ կախված PDF որակից և հավելվածի այլ պահանջներից:

Java-ում սկանավորված PDF-ից տեքստ հանելու քայլեր

  1. Maven-ի պահոցից կարգավորեք Aspose.OCR-ը ձեր նախագծում՝ կարդալու սկանավորված PDF տեքստը
  2. Նախաձեռնեք AsposeOcrPdf օբյեկտ՝ PDF-ից տեքստ կարդալու համար
  3. Ստուգեք DocumentRecognitionSettings դասի օբյեկտը ճանաչման պարամետրերը սահմանելու համար
  4. Սահմանեք մեկնարկային էջը և էջերի քանակը PDF-ում՝ տեքստը կարդալու համար
  5. Հայտնաբերման արագությունը մեծացնելու համար հայտնաբերման տարածքների դրոշը դրեք false-ի
  6. Զանգահարեք RecognizePdf ֆունկցիան՝ ամբողջ տեքստը վերը նշված կոնֆիգուրացիայի համաձայն կարդալու համար
  7. Կրկնեք PDF էջերից ստացված բոլոր արդյունքները և ցուցադրեք դրանք վահանակի վրա

Java* PDF-ից տեքստը սկանավորելու գործընթացում գործարկվում է AsposeOCRPdf-ի օբյեկտ, որն իրականում պարունակում է PDF-ից տեքստը ճանաչելու գործառույթներ: Այն աջակցում է հայտնաբերման գործընթացի կազմաձևմանը, ինչպիսիք են մեկնարկային էջի համարը, ընթերցվող PDF էջերի քանակը և արագությունը և ճշգրտությունը վերահսկելու համար հայտնաբերման տարածքները սահմանելու տարբերակը: Ի վերջո, մենք վերլուծում ենք յուրաքանչյուր էջից սկանավորված արդյունքների հավաքածուն և ցուցադրում դրանք վահանակի վրա:

Կոդ՝ սկանավորված PDF-ը Java-ով տեքստի վերածելու համար

import java.util.ArrayList;
import com.aspose.ocr.DocumentRecognitionSettings;
import com.aspose.ocr.RecognitionResult;
import com.aspose.ocr.pdf.AsposeOCRPdf;
public class ExtractTextFromScannedPdfInJava {
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class
// Instantiate an AsposeOcrPdf object
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf();
// Initialize DocumentRecognitionSettings class object for configuring recognition settings
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3);
// Set detect areas to false to improve speed
docRecognitionConfig.setDetectAreas(false);
// Using the recognition settings, fetch text from the range of pages set in the constructor above
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig);
// Iterate through all the text fetched from each page
int PageCounter = 1;
for(RecognitionResult page : fetchedTextResults)
{
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText);
PageCounter++;
}
}
}

Այս կոդը օգտագործում է AsposeOCRPdf՝ Java-ում սկանավորված PDF-ից տեքստ ստանալու համար*: DocumentRecognitionSettings դասի օբյեկտը պարունակում է էջերի կոնֆիգուրացիա սահմանելու ընտրանքներ կամ օգտագործելով կոնստրուկտորը, ինչպես ցույց է տրված այս օրինակելի կոդը, կամ առանձին դնելով StartPage-ը և PagesNumber-ը: Դուք կարող եք նաև սահմանել լեզուն, պատկերի թեքության ուղղումները և թելերի քանակը սկանավորված PDF-ից տեքստի զուգահեռ հայտնաբերման համար:

Այս հոդվածում մենք սովորեցինք, թե ինչպես հանել տեքստը սկանավորված PDF-ից Java-ում հայտնաբերման գործընթացի կազմաձևման հետ մեկտեղ: Այնուամենայնիվ, եթե ցանկանում եք նկարից տեքստ հանել, տես ինչպես հանել տեքստը պատկերից Java-ի միջոցով-ի հոդվածը:

 Հայերեն