В этом кратком руководстве подробно рассказывается о том, как преобразовать PDF в текст на Java, загрузив входной документ PDF и сохранив его в формате Text. Кроме того, использование Java PDF to Text Converter можно настроить так, чтобы контролировать, хотите ли вы, чтобы выходной текст был с форматированием или без него по сравнению с исходным файлом PDF.
Шаги для преобразования PDF в текст в Java
- Настройте свое приложение, добавив ссылку на Aspose.PDF из репозитория Maven для преобразования PDF в текстовый файл.
- Загрузите входной файл PDF с объектом класса Document для преобразования PDF в текстовый файл.
- Создайте объект класса TextAbsorber, чтобы установить параметры извлечения текста.
- Запишите извлеченный текст в текстовый файл
Вышеуказанные шаги детализируют процесс разработки приложения конвертера PDF в текст Java на основе. На первом этапе входной PDF-документ загружается с использованием экземпляра класса Document, а затем выберите, хотите ли вы текст с форматированием или нет. Наконец, вы можете использовать текстовую строку для записи в файл или дальнейшей обработки в соответствии с вашими требованиями.
Код для преобразования PDF в текст на Java
Этот пример кода демонстрирует, что при использовании Java конвертировать PDF в текст с полным контролем, используя различные параметры, такие как класс TextAbsorber, имеет несколько конструкторов, в которых можно использовать TextSearchOptions, который предоставляет возможность конвертировать затененный текст в исходном PDF-файле как отдельный текст. Точно так же вы можете установить флажки для поиска текста только в пределах страницы или установить прямоугольник для поиска текста в указанной области только на всех страницах.
Здесь мы узнали, как конвертировать PDF в текст на Java вместе с фрагментом кода. Если вы хотите узнать, как преобразовать PDF в Word, обратитесь к статье как конвертировать PDF в Word на Java.