У цьому короткому посібнику описано, як перетворити PDF на текст у Java, завантаживши вхідний документ PDF і зберігши його у форматі Text. Крім того, за допомогою перетворювача Java PDF у текст можна налаштувати, щоб контролювати, чи потрібно виводити текст із форматуванням чи без нього порівняно з вихідним файлом PDF.
Кроки для перетворення PDF на текст у Java
- Налаштуйте свою програму, додавши посилання на Aspose.PDF із репозиторію Maven, щоб конвертувати PDF у текстовий файл
- Завантажте вхідний файл PDF з об’єктом класу Document для перетворення PDF у текстовий файл
- Створіть об’єкт класу TextAbsorber, щоб установити параметри вилучення тексту
- Запишіть витягнутий текст у текстовий файл
Наведені вище кроки детально описують процес розробки програми конвертера PDF у Text Java. На першому кроці вхідний PDF-документ завантажується за допомогою екземпляра класу Document, а потім вибирається, чи потрібен вам текст із форматуванням. Нарешті, ви можете використовувати текстовий рядок для запису у файл або подальшої обробки відповідно до ваших вимог.
Код для перетворення PDF на текст у Java
Цей зразок коду демонструє, що за допомогою Java конвертує PDF-файл у текст із повним контролем за допомогою різних параметрів, таких як клас TextAbsorber, має кілька конструкторів, у яких можна використовувати TextSearchOptions, які надають можливість перетворювати затінений текст у вихідному PDF як окремий текст. Подібним чином ви можете встановити прапорці для пошуку тексту лише в межах сторінки або встановити прямокутник для пошуку тексту лише у вказаній області на всіх сторінках.
Тут ми дізналися, як конвертувати PDF у текст у Java разом із фрагментом коду. Якщо ви хочете дізнатися, як конвертувати PDF у Word, перегляньте статтю як конвертувати PDF у Word на Java.