Витягніть текст із PDF за допомогою Python

Цей посібник містить інформацію про те, як витягнути текст із PDF за допомогою Python. У ньому є всі деталі для налаштування середовища, список кроків і зразок коду для вилучення тексту з PDF за допомогою кількох викликів API за допомогою Python. Ви навчитеся читати дані з одного чи кількох PDF-файлів і відображати текст, отриманий у результаті цього процесу.

Кроки для отримання тексту з PDF за допомогою Python

  1. Налаштуйте середовище для використання Aspose.OCR for Python via .NET для читання PDF
  2. Створіть об’єкт AsposeOcr, щоб скопіювати текст із PDF-файлу
  3. Створіть об’єкт класу OcrInput і встановіть тип введення PDF
  4. Додайте PDF-файли до вхідної колекції
  5. Викличте метод розпізнавання(), щоб прочитати дані з колекції PDF
  6. Відобразити текст розпізнавання з поверненої колекції

Ці кроки підсумовують процес вилучення тексту з документа PDF за допомогою Python. Створіть об’єкт класу AsposeOcr, який містить методи для розпізнавання тексту з PDF та багатьох інших форматів. Використовуйте об’єкт класу OcrInput, щоб встановити тип введення PDF і додати вхідну колекцію файлів PDF. Нарешті, викличте метод розпізнавання() і відобразіть повернутий текст.

Код для вилучення тексту з PDF за допомогою Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Цей код демонструє розробку зчитувача PDF OCR за допомогою Python. Клас AsposeOcr містить низку властивостей і методів для налаштування процесу розпізнавання, наприклад, ви можете обчислити перекіс, виправити орфографію у виявленому тексті та виявити прямокутник. Якщо ви додаєте кілька PDF-файлів, увесь текст із PDF-файлів повертається як колекція рядків, які можна відобразити шляхом ітерації повернутої колекції.

Ця стаття навчила нас процесу вилучення тексту з PDF. Щоб отримати текст із зображень, зверніться до статті Витягніть текст із зображення за допомогою Python.

 Українська