Ovaj kratki vodič pruža detalje o tome kako izdvojiti tekst iz skeniranog PDF-a u Javi. Možete konfigurirati ovaj proces izdvajanja teksta iz skeniranog PDF-a u Javi postavljanjem parametara detekcije. Također je dostupna opcija odabira između brzine ili točnosti ovisno o PDF kvaliteti i drugim zahtjevima aplikacije.
Koraci za izdvajanje teksta iz skeniranog PDF-a u Javi
- Iz repozitorija Maven konfigurirajte Aspose.OCR u svom projektu za čitanje skeniranog PDF teksta
- Inicijalizirajte objekt AsposeOcrPdf za čitanje teksta iz PDF-a
- Instancirajte objekt klase DocumentRecognitionSettings za postavljanje parametara prepoznavanja
- Postavite početnu stranicu i broj stranica u PDF-u za čitanje teksta
- Da biste povećali brzinu otkrivanja, postavite oznaku područja otkrivanja na lažno
- Pozovite funkciju RecognizePdf za čitanje cijelog teksta prema gornjoj konfiguraciji
- Iterirajte kroz sve izdvojene rezultate s PDF stranica i prikažite ih na konzoli
Tijekom procesa skeniranja teksta iz PDF-a u Javi, pokreće se objekt AsposeOCRPdf koji zapravo sadrži značajke za prepoznavanje teksta iz PDF-a. Podržava konfiguraciju procesa otkrivanja kao što je broj početne stranice, broj PDF stranica za čitanje i mogućnost postavljanja područja otkrivanja za kontrolu brzine i točnosti. Na kraju analiziramo zbirku rezultata skeniranih sa svake stranice i prikazujemo ih na konzoli.
Kod za pretvaranje skeniranog PDF-a u tekst u Javi
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
Ovaj kôd koristi AsposeOCRPdf za dobivanje teksta iz skeniranog PDF-a u Javi. Objekt klase DocumentRecognitionSettings sadrži opcije za postavljanje konfiguracije stranica pomoću konstruktora kao što je prikazano u ovom primjeru koda ili zasebnim postavljanjem početne stranice i broja stranice. Također možete postaviti jezik, korekcije iskrivljenja slike i broj niti za paralelno otkrivanje teksta iz skeniranog PDF-a.
U ovom smo članku naučili kako izdvojiti tekst iz skeniranog PDF-a u Javi zajedno s konfiguracijom procesa otkrivanja. Međutim, ako želite izvući tekst iz slike, pogledajte članak na kako izvući tekst iz slike pomoću Jave.