Извлечение текста из PDF с помощью Python

Это руководство содержит информацию о том, как извлечь текст из PDF с помощью Python. Оно содержит все детали для настройки среды, список шагов и пример кода для извлечения текста из PDF с помощью нескольких вызовов API с помощью Python. Вы научитесь читать данные из одного или нескольких файлов PDF и отображать текст, возвращаемый этим процессом.

Шаги по извлечению текста из PDF-файла с помощью Python

  1. Настройте среду на использование Aspose.OCR for Python via .NET для чтения PDF-файла
  2. Создайте объект AsposeOcr для извлечения текста из PDF-файла.
  3. Создайте объект класса OcrInput и установите тип входных данных на PDF.
  4. Добавить PDF-файлы в коллекцию входных данных
  5. Вызовите метод recognize() для чтения данных из коллекции PDF.
  6. Отобразить текст распознавания из возвращенной коллекции

Эти шаги суммируют процесс извлечения текста из документа PDF с помощью Python. Создайте объект класса AsposeOcr, который содержит методы для распознавания текста из PDF и многих других форматов. Используйте объект класса OcrInput, чтобы задать тип ввода PDF и добавить коллекцию входных файлов PDF. Наконец, вызовите метод recognize() и отобразите возвращенный текст.

Код для извлечения текста из PDF с помощью Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Этот код демонстрирует разработку PDF OCR-ридера с использованием Python. Класс AsposeOcr содержит ряд свойств и методов для настройки процесса распознавания, например, вы можете вычислить перекос, исправить орфографию в обнаруженном тексте и обнаружить прямоугольник. Если вы добавляете несколько файлов PDF, весь текст из PDF возвращается как коллекция строк, которые могут быть отображены путем итерации возвращенной коллекции.

Эта статья научила нас процессу извлечения текста из PDF. Чтобы извлечь текст из изображений, обратитесь к статье на Извлечение текста из изображения с помощью Python.

 Русский