Цей короткий підручник допоможе вам, як читати вміст PDF на Python. Він представляє всі ресурси, необхідні класи та методи, які будуть використовуватися в додатку. Він також містить виконуваний зразок коду для читання pdf за допомогою python за допомогою лише кількох рядків коду без використання сторонніх інструментів.
Кроки для читання PDF за допомогою Python
- Встановіть для IDE значення використовуйте Aspose.PDF для Python через .NET, щоб читати текст PDF
- Завантажте вихідний файл PDF за допомогою об’єкта Document, дані якого потрібно прочитати
- Створіть об’єкт TextAbsorber, щоб отримати текст із PDF-файлу
- Викличте метод accept(), щоб прочитати весь текст у завантаженому файлі PDF
- Відобразіть витягнутий текст за допомогою властивості Text об’єкта TextAbsorber
Ці кроки підсумовують процес читання PDF-файлу в Python шляхом представлення класу Document для завантаження PDF-файлу, об’єкта класу TextAbsorber для отримання тексту з PDF-файлу та метод accept(), який фактично заповнює властивість text файлу Об’єкт TextAbsorber. Після виклику методу accept() рядкові дані у властивості text можна роздрукувати або проаналізувати для подальшої обробки.
Код для читання файлу PDF у Python
import aspose.pdf as pdf | |
# Load License | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load the PDF file | |
pdfFile = pdf.Document("ImageAndText.pdf") | |
# Initialize TextAbsorber object | |
textAbsorber = pdf.text.TextAbsorber() | |
# Call Page.Accept() method to fetch text | |
pdfFile.pages.accept(textAbsorber) | |
# Display the text | |
print(textAbsorber.text) | |
print("Process completed") |
Наведений вище сегмент коду демонструє процес вилучення даних із файлу PDF за допомогою Python. Клас TextAbsorber підтримує TextFormattingMode для вилучення тексту в чистому, необробленому, зведеному режимі або режимі збереження пам’яті. Крім того, клас TextAbsorber повертає список помилок під час отримання даних із PDF-файлу та підтримує визначення прямокутника, у межах якого текст отримується зі сторінки PDF.
Ця стаття навчила нас читати PDF на Python. Якщо ви хочете дізнатися, як читати закладки з PDF-файлу, перегляньте статтю як читати закладки в PDF за допомогою Python.