У цьому короткому посібнику ви дізнаєтеся, як читати PDF-файл у Java. Він містить код Java для читання файлу PDF таким чином, що спочатку ви читаєте текст із PDF у Java у рядок, а потім отримуєте всі зображення з файлу PDF, щоб зберегти їх на диску як JPG. Немає необхідності встановлювати сторонні інструменти для читання PDF-файлів у Java.
Кроки для читання PDF-файлу в Java
- Налаштуйте Aspose.PDF у свій проект за допомогою сховища Maven для читання файлу PDF
- Завантажте зразок PDF-файлу в об’єкт класу Document
- Створіть екземпляр об’єкта класу TextAbsorber, який може читати весь текст із файлу PDF
- Прочитайте текст PDF із завантаженого файлу за допомогою об’єкта класу TextAbsorber
- Відображати весь текст, прочитаний із файлу PDF, на консолі
- Перегляньте всі сторінки PDF-файлу, щоб отримати доступ до зображень
- Проаналізуйте всі зображення на кожній колекції зображень сторінки та збережіть їх на диску
У цьому короткому покроковому підручнику ми спочатку завантажуємо цільовий PDF-файл, а потім запускаємо об’єкт класу TextAbsorber, який здатний здійснювати пошук тексту на всіх сторінках у PDF-файлі. Весь цей текст повертається в рядок, який можна відобразити або обробити відповідно до вимог. Так само ми можемо проаналізувати всі зображення в колекції зображень і зберегти їх на диску в будь-якому форматі, як ми зберегли його як JPG у цьому посібнику.
Код для читання PDF за допомогою Java
У цьому прикладі коду ми використовували клас TextAbsorber і функцію getImages() Page.getResources(), щоб читати PDF за допомогою Java. Об’єкт TextAbsorber використовується для читання тексту за допомогою функції прийняття в PDF PageCollection. Тоді як функція getImages() колекції getResources() повертає всі зображення на сторінці.
Зауважте, що ці кроки для читання PDF-файлів у Java можна виконати в будь-якій операційній системі, як-от Windows, Linux або macOS. Якщо ви хочете дізнатися більше про роботу з PDF-файлами, зверніться до статті як читати закладки в PDF за допомогою Java.