Ten krótki samouczek zawiera szczegółowe informacje na temat wyodrębniania tekstu z zeskanowanego pliku PDF w Javie. Możesz skonfigurować ten proces wyodrębniania tekstu z zeskanowanego pliku PDF w Javie, ustawiając parametry wykrywania. Dostępna jest również opcja wyboru między szybkością a dokładnością w zależności od jakości PDF i innych wymagań aplikacji.
Kroki, aby wyodrębnić tekst ze zeskanowanego pliku PDF w Javie
- Z repozytorium Maven skonfiguruj Aspose.OCR w swoim projekcie, aby odczytywać zeskanowany tekst PDF
- Zainicjuj obiekt AsposeOcrPdf, aby odczytać tekst z pliku PDF
- Utwórz instancję obiektu klasy DocumentRecognitionSettings w celu ustawienia parametrów rozpoznawania
- Ustaw stronę początkową i liczbę stron w pliku PDF do czytania tekstu
- Aby zwiększyć szybkość wykrywania, ustaw flagę wykrywania obszarów na fałsz
- Wywołaj funkcję RecognizePdf, aby przeczytać cały tekst zgodnie z powyższą konfiguracją
- Przejrzyj wszystkie wyniki wyodrębnione ze stron PDF i wyświetl je w konsoli
Podczas procesu skanowania tekstu z pliku PDF w Javie inicjowany jest obiekt AsposeOCRPdf, który faktycznie zawiera funkcje rozpoznawania tekstu z pliku PDF. Obsługuje konfigurowanie procesu wykrywania, takiego jak numer strony początkowej, liczba stron PDF do odczytania oraz opcja ustawiania obszarów wykrywania w celu kontrolowania szybkości i dokładności. Na koniec analizujemy zbiór wyników zeskanowanych z każdej strony i wyświetlamy je na konsoli.
Kod do konwersji zeskanowanego pliku PDF na tekst w Javie
Ten kod wykorzystuje AsposeOCRPdf do pobierania tekstu z zeskanowanego pliku PDF w Javie. Obiekt klasy DocumentRecognitionSettings zawiera opcje ustawiania konfiguracji stron przy użyciu konstruktora, jak pokazano w tym przykładowym kodzie, lub przez oddzielne ustawienie StartPage i PagesNumber. Możesz także ustawić język, korekcję przekrzywienia obrazu i liczbę wątków do równoległego wykrywania tekstu z zeskanowanego pliku PDF.
W tym artykule dowiedzieliśmy się, jak wyodrębnić tekst z zeskanowanego pliku PDF w Javie wraz z konfiguracją procesu wykrywania. Jeśli jednak chcesz wyodrębnić tekst z obrazu, zapoznaj się z artykułem na jak wyodrębnić tekst z obrazu za pomocą Java.