Ten krótki samouczek zawiera szczegółowe informacje na temat wyodrębniania tekstu z zeskanowanego pliku PDF w Javie. Możesz skonfigurować ten proces wyodrębniania tekstu z zeskanowanego pliku PDF w Javie, ustawiając parametry wykrywania. Dostępna jest również opcja wyboru między szybkością a dokładnością w zależności od jakości PDF i innych wymagań aplikacji.
Kroki, aby wyodrębnić tekst ze zeskanowanego pliku PDF w Javie
- Z repozytorium Maven skonfiguruj Aspose.OCR w swoim projekcie, aby odczytywać zeskanowany tekst PDF
- Zainicjuj obiekt AsposeOcrPdf, aby odczytać tekst z pliku PDF
- Utwórz instancję obiektu klasy DocumentRecognitionSettings w celu ustawienia parametrów rozpoznawania
- Ustaw stronę początkową i liczbę stron w pliku PDF do czytania tekstu
- Aby zwiększyć szybkość wykrywania, ustaw flagę wykrywania obszarów na fałsz
- Wywołaj funkcję RecognizePdf, aby przeczytać cały tekst zgodnie z powyższą konfiguracją
- Przejrzyj wszystkie wyniki wyodrębnione ze stron PDF i wyświetl je w konsoli
Podczas procesu skanowania tekstu z pliku PDF w Javie inicjowany jest obiekt AsposeOCRPdf, który faktycznie zawiera funkcje rozpoznawania tekstu z pliku PDF. Obsługuje konfigurowanie procesu wykrywania, takiego jak numer strony początkowej, liczba stron PDF do odczytania oraz opcja ustawiania obszarów wykrywania w celu kontrolowania szybkości i dokładności. Na koniec analizujemy zbiór wyników zeskanowanych z każdej strony i wyświetlamy je na konsoli.
Kod do konwersji zeskanowanego pliku PDF na tekst w Javie
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
Ten kod wykorzystuje AsposeOCRPdf do pobierania tekstu z zeskanowanego pliku PDF w Javie. Obiekt klasy DocumentRecognitionSettings zawiera opcje ustawiania konfiguracji stron przy użyciu konstruktora, jak pokazano w tym przykładowym kodzie, lub przez oddzielne ustawienie StartPage i PagesNumber. Możesz także ustawić język, korekcję przekrzywienia obrazu i liczbę wątków do równoległego wykrywania tekstu z zeskanowanego pliku PDF.
W tym artykule dowiedzieliśmy się, jak wyodrębnić tekst z zeskanowanego pliku PDF w Javie wraz z konfiguracją procesu wykrywania. Jeśli jednak chcesz wyodrębnić tekst z obrazu, zapoznaj się z artykułem na jak wyodrębnić tekst z obrazu za pomocą Java.