Jak wyodrębnić tekst ze zeskanowanego pliku PDF w Javie

Ten krótki samouczek zawiera szczegółowe informacje na temat wyodrębniania tekstu z zeskanowanego pliku PDF w Javie. Możesz skonfigurować ten proces wyodrębniania tekstu z zeskanowanego pliku PDF w Javie, ustawiając parametry wykrywania. Dostępna jest również opcja wyboru między szybkością a dokładnością w zależności od jakości PDF i innych wymagań aplikacji.

Kroki, aby wyodrębnić tekst ze zeskanowanego pliku PDF w Javie

  1. Z repozytorium Maven skonfiguruj Aspose.OCR w swoim projekcie, aby odczytywać zeskanowany tekst PDF
  2. Zainicjuj obiekt AsposeOcrPdf, aby odczytać tekst z pliku PDF
  3. Utwórz instancję obiektu klasy DocumentRecognitionSettings w celu ustawienia parametrów rozpoznawania
  4. Ustaw stronę początkową i liczbę stron w pliku PDF do czytania tekstu
  5. Aby zwiększyć szybkość wykrywania, ustaw flagę wykrywania obszarów na fałsz
  6. Wywołaj funkcję RecognizePdf, aby przeczytać cały tekst zgodnie z powyższą konfiguracją
  7. Przejrzyj wszystkie wyniki wyodrębnione ze stron PDF i wyświetl je w konsoli

Podczas procesu skanowania tekstu z pliku PDF w Javie inicjowany jest obiekt AsposeOCRPdf, który faktycznie zawiera funkcje rozpoznawania tekstu z pliku PDF. Obsługuje konfigurowanie procesu wykrywania, takiego jak numer strony początkowej, liczba stron PDF do odczytania oraz opcja ustawiania obszarów wykrywania w celu kontrolowania szybkości i dokładności. Na koniec analizujemy zbiór wyników zeskanowanych z każdej strony i wyświetlamy je na konsoli.

Kod do konwersji zeskanowanego pliku PDF na tekst w Javie

Ten kod wykorzystuje AsposeOCRPdf do pobierania tekstu z zeskanowanego pliku PDF w Javie. Obiekt klasy DocumentRecognitionSettings zawiera opcje ustawiania konfiguracji stron przy użyciu konstruktora, jak pokazano w tym przykładowym kodzie, lub przez oddzielne ustawienie StartPage i PagesNumber. Możesz także ustawić język, korekcję przekrzywienia obrazu i liczbę wątków do równoległego wykrywania tekstu z zeskanowanego pliku PDF.

W tym artykule dowiedzieliśmy się, jak wyodrębnić tekst z zeskanowanego pliku PDF w Javie wraz z konfiguracją procesu wykrywania. Jeśli jednak chcesz wyodrębnić tekst z obrazu, zapoznaj się z artykułem na jak wyodrębnić tekst z obrazu za pomocą Java.

 Polski