Այս արագ ձեռնարկը մանրամասներ է տալիս այն մասին, թե ինչպես արտահանել տեքստ սկանավորված PDF-ից Java-ում: Դուք կարող եք կարգավորել Java-ում սկանավորված PDF-ից տեքստը հանելու այս գործընթացը՝ սահմանելով հայտնաբերման պարամետրերը: Ընտրանքը հասանելի է նաև արագության կամ ճշգրտության միջև ընտրություն կատարելու համար՝ կախված PDF որակից և հավելվածի այլ պահանջներից:
Java-ում սկանավորված PDF-ից տեքստ հանելու քայլեր
- Maven-ի պահոցից կարգավորեք Aspose.OCR-ը ձեր նախագծում՝ կարդալու սկանավորված PDF տեքստը
- Նախաձեռնեք AsposeOcrPdf օբյեկտ՝ PDF-ից տեքստ կարդալու համար
- Ստուգեք DocumentRecognitionSettings դասի օբյեկտը ճանաչման պարամետրերը սահմանելու համար
- Սահմանեք մեկնարկային էջը և էջերի քանակը PDF-ում՝ տեքստը կարդալու համար
- Հայտնաբերման արագությունը մեծացնելու համար հայտնաբերման տարածքների դրոշը դրեք false-ի
- Զանգահարեք RecognizePdf ֆունկցիան՝ ամբողջ տեքստը վերը նշված կոնֆիգուրացիայի համաձայն կարդալու համար
- Կրկնեք PDF էջերից ստացված բոլոր արդյունքները և ցուցադրեք դրանք վահանակի վրա
Java* PDF-ից տեքստը սկանավորելու գործընթացում գործարկվում է AsposeOCRPdf-ի օբյեկտ, որն իրականում պարունակում է PDF-ից տեքստը ճանաչելու գործառույթներ: Այն աջակցում է հայտնաբերման գործընթացի կազմաձևմանը, ինչպիսիք են մեկնարկային էջի համարը, ընթերցվող PDF էջերի քանակը և արագությունը և ճշգրտությունը վերահսկելու համար հայտնաբերման տարածքները սահմանելու տարբերակը: Ի վերջո, մենք վերլուծում ենք յուրաքանչյուր էջից սկանավորված արդյունքների հավաքածուն և ցուցադրում դրանք վահանակի վրա:
Կոդ՝ սկանավորված PDF-ը Java-ով տեքստի վերածելու համար
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
Այս կոդը օգտագործում է AsposeOCRPdf՝ Java-ում սկանավորված PDF-ից տեքստ ստանալու համար*: DocumentRecognitionSettings դասի օբյեկտը պարունակում է էջերի կոնֆիգուրացիա սահմանելու ընտրանքներ կամ օգտագործելով կոնստրուկտորը, ինչպես ցույց է տրված այս օրինակելի կոդը, կամ առանձին դնելով StartPage-ը և PagesNumber-ը: Դուք կարող եք նաև սահմանել լեզուն, պատկերի թեքության ուղղումները և թելերի քանակը սկանավորված PDF-ից տեքստի զուգահեռ հայտնաբերման համար:
Այս հոդվածում մենք սովորեցինք, թե ինչպես հանել տեքստը սկանավորված PDF-ից Java-ում հայտնաբերման գործընթացի կազմաձևման հետ մեկտեղ: Այնուամենայնիվ, եթե ցանկանում եք նկարից տեքստ հանել, տես ինչպես հանել տեքստը պատկերից Java-ի միջոցով-ի հոդվածը: