Hướng dẫn này chứa thông tin về cách trích xuất văn bản từ PDF bằng Python. Hướng dẫn có tất cả các chi tiết để thiết lập môi trường, danh sách các bước và mã mẫu để trích xuất văn bản từ PDF bằng một vài lệnh gọi API bằng Python. Bạn sẽ học cách đọc dữ liệu từ một hoặc nhiều tệp PDF và hiển thị văn bản trả về từ quy trình này.
Các bước để lấy văn bản từ PDF bằng Python
- Thiết lập môi trường để sử dụng Aspose.OCR for Python via .NET để đọc PDF
- Tạo đối tượng AsposeOcr để trích xuất văn bản từ PDF
- Tạo đối tượng lớp OcrInput và đặt loại đầu vào thành PDF
- Thêm tệp PDF vào bộ sưu tập đầu vào
- Gọi phương thức recognize() để đọc dữ liệu từ bộ sưu tập PDF
- Hiển thị văn bản nhận dạng từ bộ sưu tập được trả về
Các bước này tóm tắt quy trình trích xuất văn bản từ tài liệu PDF bằng Python. Tạo đối tượng lớp AsposeOcr chứa các phương thức để nhận dạng văn bản từ PDF và nhiều định dạng khác. Sử dụng đối tượng lớp OcrInput để đặt loại đầu vào thành PDF và thêm bộ sưu tập đầu vào của các tệp PDF. Cuối cùng, gọi phương thức recognize() và hiển thị văn bản trả về.
Mã để trích xuất văn bản ra khỏi PDF bằng Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
Mã này minh họa quá trình phát triển trình đọc PDF OCR bằng Python. Lớp AsposeOcr chứa một số thuộc tính và phương thức để tùy chỉnh quy trình nhận dạng như bạn có thể tính toán độ lệch, sửa lỗi chính tả trong văn bản được phát hiện và phát hiện hình chữ nhật. Nếu bạn thêm nhiều tệp PDF, tất cả văn bản từ các tệp PDF sẽ được trả về dưới dạng tập hợp các chuỗi có thể hiển thị bằng cách lặp lại tập hợp được trả về.
Bài viết này hướng dẫn chúng ta cách trích xuất văn bản từ PDF. Để trích xuất văn bản từ hình ảnh, hãy tham khảo bài viết trên Trích xuất văn bản từ hình ảnh bằng Python.