Як перетворити PDF на текст за допомогою Python

Цей короткий посібник пояснює, як перетворити PDF на Text за допомогою Python. Він охоплює деталі конфігурації системи та покроковий процес разом із зразком коду для виконання перетворення PDF у текстовий Python на основі. Крім того, ви можете записати витягнутий текст у файл або на консолі відповідно до ваших вимог.

Кроки для перетворення PDF на текст у Python

  1. Налаштуйте систему, встановивши бібліотеку Aspose.PDF для Python через .NET
  2. Завантажте вихідний файл PDF за допомогою класу Document для перетворення його на текстовий файл
  3. Створіть об’єкт класу TextAbsorber для отримання тексту за допомогою методу Page.Accept().
  4. Створіть текстовий файл і запишіть вихідний текстовий рядок у файл

Ці кроки підсумовують, як можна виконати перетворення Python PDF у TXT за допомогою кількох викликів API. На першому кроці завантажте вхідний файл PDF та ініціалізуйте об’єкт TextAbsorber, який можна використовувати для отримання тексту зі сторінок. Потім вам потрібно отримати витягнутий текст і записати його у файл TXT, вказавши шлях і назву файлу.

Код для перетворення PDF у текст на Python

У цьому фрагменті коду показано, як створити конвертер PDF-тексту за допомогою Python. Він завантажує вихідний документ PDF за допомогою класу Document. Згодом ви можете отримати текст з усіх сторінок PDF-файлу за допомогою методу accept або прочитати текстовий рядок із певної сторінки, вказавши номер сторінки. Нарешті, запишіть текстовий рядок у файл і експортуйте текстовий файл на диск.

У цій статті ми дізналися, як за допомогою Python PDF to Text можна виконати рендеринг ваших програм. Однак, якщо ви хочете навчитися конвертувати PDF у Word, прочитайте підручник на як конвертувати PDF у Word за допомогою Python.

 Українська