Jak czytać plik PDF w Javie

Ten krótki samouczek poprowadzi Cię jak czytać plik PDF w Javie. Zawiera kod Java do odczytu pliku PDF tak, że najpierw odczytujesz tekst z PDF w Javie do łańcucha, a następnie pobierasz wszystkie obrazy z pliku PDF, aby zapisać je na dysku jako JPG. Nie ma potrzeby instalowania żadnego narzędzia innej firmy, aby odczytywać pliki PDF w Javie.

Kroki, aby przeczytać plik PDF w Javie

  1. Skonfiguruj Aspose.PDF w swoim projekcie, korzystając z repozytorium Maven do odczytu pliku PDF
  2. Załaduj przykładowy plik PDF do obiektu klasy Document
  3. Utwórz instancję obiektu klasy TextAbsorber, który może odczytać cały tekst z pliku PDF
  4. Odczytaj tekst PDF z załadowanego pliku za pomocą obiektu klasy TextAbsorber
  5. Wyświetl cały tekst odczytany z pliku PDF na konsoli
  6. Przejrzyj wszystkie strony w pliku PDF, aby uzyskać dostęp do obrazów
  7. Przeanalizuj wszystkie obrazy z każdej kolekcji obrazów stron i zapisz je na dysku

W tym krótkim samouczku krok po kroku najpierw ładujemy docelowy plik PDF, a następnie inicjujemy obiekt klasy TextAbsorber, który jest w stanie przeszukiwać tekst na wszystkich stronach w pliku PDF. Cały ten tekst jest zwracany do łańcucha, który można wyświetlić lub przetworzyć zgodnie z wymaganiami. Podobnie możemy przeanalizować wszystkie obrazy w kolekcji obrazów i zapisać je na dysku w dowolnym formacie, tak jak zapisaliśmy go jako JPG w tym samouczku.

Kod do odczytu plików PDF przy użyciu języka Java

W tym przykładowym kodzie użyliśmy klasy TextAbsorber i funkcji getImages() metody Page.getResources() do odczytywania plików PDF przy użyciu języka Java. Obiekt TextAbsorber służy do odczytywania tekstu przez funkcję accept w PDF PageCollection. Natomiast funkcja getImages() kolekcji getResources() zwraca wszystkie obrazy na stronie.

Pamiętaj, że te kroki, aby odczytać plik PDF w Javie, można wykonać w dowolnym systemie operacyjnym, takim jak Windows, Linux lub macOS. Jeśli chcesz dowiedzieć się więcej o pracy z plikami PDF, zapoznaj się z artykułem na jak czytać zakładki w PDF przy użyciu Java.

 Polski