Hướng dẫn ngắn gọn này mô tả quy trình cách đọc bảng PDF trong Python. Nó trình bày tất cả thông tin cơ bản để thiết lập môi trường phát triển, trình tự các bước để viết ứng dụng và mã mẫu có thể chạy được để trích xuất bảng từ PDF bằng Python. Bạn sẽ nhận được hướng dẫn để truy cập từng ô của bảng và sau đó tìm nạp tất cả dữ liệu trong đó.
Các bước để trích xuất dữ liệu bảng từ PDF bằng Python
- Đặt môi trường thành sử dụng Aspose.PDF cho Python qua .NET để đọc bảng
- Tải tệp PDF nguồn bằng lớp Document có bảng
- Tạo một thể hiện của đối tượng lớp TableAbsorber để đọc các bảng từ tệp PDF đã tải
- Chọn một trang và phân tích cú pháp tất cả các bảng trong đó
- Truy cập bảng đầu tiên và phân tích cú pháp qua các hàng và cột để tìm nạp tất cả các phiên bản TextFragment trong một ô
- Phân tích cú pháp qua tất cả các đoạn văn bản và hiển thị văn bản trong từng đoạn
Các bước này giải thích quy trình đọc bảng PDF bằng Python. Quá trình này được bắt đầu bằng cách tải tệp PDF và sau đó tạo đối tượng TableAbsorber có các phương thức để đọc các bảng từ tệp PDF. Sau khi tất cả các bảng được phân tích cú pháp trên một trang cụ thể, bảng đầu tiên được truy cập từ bộ sưu tập, sau đó từng hàng và cột được phân tích cú pháp để lấy tập hợp các đoạn văn bản trong đó để tìm nạp dữ liệu.
Mã để trích xuất bảng từ PDF bằng Python
Đoạn mã trên cho thấy cách sử dụng python đọc bảng pdf và tìm nạp dữ liệu của nó để xử lý. Khi chúng ta gọi phương thức visit() trong lớp TableAbsorber, nó sẽ lấp đầy mảng table_list được sử dụng để truy cập các bảng riêng lẻ. Mỗi bảng trong bộ sưu tập bảng có thuộc tính row_list có thuộc tính cell_list cung cấp quyền truy cập vào bộ sưu tập cột và cuối cùng bạn đến thuộc tính text_fragments để lấy bộ sưu tập dữ liệu trong một ô cụ thể.
Bài viết này đã dạy chúng ta cách trích xuất bảng từ PDF Python có thể được sử dụng dễ dàng. Nếu bạn muốn tìm hiểu quy trình đọc dấu trang trong PDF, hãy tham khảo bài viết trên cách đọc dấu trang trong PDF bằng Python.