Как преобразовать PDF в текст в Java

В этом кратком руководстве подробно рассказывается о том, как преобразовать PDF в текст на Java, загрузив входной документ PDF и сохранив его в формате Text. Кроме того, использование Java PDF to Text Converter можно настроить так, чтобы контролировать, хотите ли вы, чтобы выходной текст был с форматированием или без него по сравнению с исходным файлом PDF.

Шаги для преобразования PDF в текст в Java

  1. Настройте свое приложение, добавив ссылку на Aspose.PDF из репозитория Maven для преобразования PDF в текстовый файл.
  2. Загрузите входной файл PDF с объектом класса Document для преобразования PDF в текстовый файл.
  3. Создайте объект класса TextAbsorber, чтобы установить параметры извлечения текста.
  4. Запишите извлеченный текст в текстовый файл

Вышеуказанные шаги детализируют процесс разработки приложения конвертера PDF в текст Java на основе. На первом этапе входной PDF-документ загружается с использованием экземпляра класса Document, а затем выберите, хотите ли вы текст с форматированием или нет. Наконец, вы можете использовать текстовую строку для записи в файл или дальнейшей обработки в соответствии с вашими требованиями.

Код для преобразования PDF в текст на Java

Этот пример кода демонстрирует, что при использовании Java конвертировать PDF в текст с полным контролем, используя различные параметры, такие как класс TextAbsorber, имеет несколько конструкторов, в которых можно использовать TextSearchOptions, который предоставляет возможность конвертировать затененный текст в исходном PDF-файле как отдельный текст. Точно так же вы можете установить флажки для поиска текста только в пределах страницы или установить прямоугольник для поиска текста в указанной области только на всех страницах.

Здесь мы узнали, как конвертировать PDF в текст на Java вместе с фрагментом кода. Если вы хотите узнать, как преобразовать PDF в Word, обратитесь к статье как конвертировать PDF в Word на Java.

 Русский