Цей посібник містить інформацію про те, як витягнути текст із PDF за допомогою Python. У ньому є всі деталі для налаштування середовища, список кроків і зразок коду для вилучення тексту з PDF за допомогою кількох викликів API за допомогою Python. Ви навчитеся читати дані з одного чи кількох PDF-файлів і відображати текст, отриманий у результаті цього процесу.
Кроки для отримання тексту з PDF за допомогою Python
- Налаштуйте середовище для використання Aspose.OCR for Python via .NET для читання PDF
- Створіть об’єкт AsposeOcr, щоб скопіювати текст із PDF-файлу
- Створіть об’єкт класу OcrInput і встановіть тип введення PDF
- Додайте PDF-файли до вхідної колекції
- Викличте метод розпізнавання(), щоб прочитати дані з колекції PDF
- Відобразити текст розпізнавання з поверненої колекції
Ці кроки підсумовують процес вилучення тексту з документа PDF за допомогою Python. Створіть об’єкт класу AsposeOcr, який містить методи для розпізнавання тексту з PDF та багатьох інших форматів. Використовуйте об’єкт класу OcrInput, щоб встановити тип введення PDF і додати вхідну колекцію файлів PDF. Нарешті, викличте метод розпізнавання() і відобразіть повернутий текст.
Код для вилучення тексту з PDF за допомогою Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
Цей код демонструє розробку зчитувача PDF OCR за допомогою Python. Клас AsposeOcr містить низку властивостей і методів для налаштування процесу розпізнавання, наприклад, ви можете обчислити перекіс, виправити орфографію у виявленому тексті та виявити прямокутник. Якщо ви додаєте кілька PDF-файлів, увесь текст із PDF-файлів повертається як колекція рядків, які можна відобразити шляхом ітерації повернутої колекції.
Ця стаття навчила нас процесу вилучення тексту з PDF. Щоб отримати текст із зображень, зверніться до статті Витягніть текст із зображення за допомогою Python.