Bài viết này mô tả cách trích xuất một bảng từ PDF đến Excel bằng Python. Nó có đầy đủ chi tiết để sử dụng cả hai sản phẩm, tức là Aspose.PDF và Aspose.Cells, một danh sách các bước, và một đoạn mã mẫu để trích xuất bảng Excel từ PDF bằng Python. Đoạn mã mẫu sẽ trình bày quy trình hoàn chỉnh bằng cách chuyển bảng từ một trang PDF sang một trang Excel.
Các bước trích xuất bảng từ PDF sang Excel bằng Python
- Đặt môi trường để cài đặt Aspose.Total For Python via .NET
- Áp dụng giấy phép cho các thư viện đã nhập liên quan, tức là Aspose.Các ô và Aspose.PDF
- Tải tệp PDF nguồn có bảng bằng cách sử dụng đối tượng lớp Document
- Tạo một tệp Excel trống bằng lớp Workbook và đặt tên cho sheet đầu tiên
- Duyệt qua từng trang trong bộ sưu tập các trang của tệp PDF
- Truy cập bộ sưu tập các bảng và phân tích từng ô trong bảng
- Lấy văn bản từ ô PDF và sao chép nó vào ô tương ứng trong bảng tính Excel
- Lưu tệp Excel vào đĩa với dữ liệu bảng từ PDF
Các bước này bao gồm quy trình trích xuất dữ liệu từ bảng PDF sang Excel bằng Python. Nhập các thư viện cần thiết, tải tệp PDF nguồn, truy cập mỗi trang và tập hợp các bảng trên đó, và phân tích qua tất cả các bảng. Cuối cùng, truy cập từng ô trong một bảng PDF và lưu nội dung của nó vào ô tương ứng trong bảng tính Excel đầu ra.
Mã để lấy bảng từ PDF vào Excel bằng Python
Mã này minh họa cách lấy bảng từ PDF sang Excel bằng Python. Bạn có thể thử một công cụ nhận dạng bảng khác bằng cách sử dụng tùy chọn use_flow_engine trong lớp TableAbsorber để phát hiện các bảng không có viền trong PDF. Sử dụng text_state trong ô đã hấp thụ để lấy tên phông chữ, kích thước, màu nền, màu chữ và kiểu in đậm nghiêng nhằm tùy chỉnh định dạng ô Excel đích, giữ cho định dạng bảng giống nhau trong cả hai tệp.
Bài viết này đã giúp hiểu quy trình chuyển bảng PDF sang Excel. Để cài đặt Python để chạy Aspose.PDF cho Python cũng vậy.NET, hãy tham khảo bài viết [Cách cài đặt Python để chạy Aspose].PDF cho Python qua .NET]( https://kb.aspose.com/ vi/total/python/how-to-install-python-to-run-aspose-pdf-for-python-via-net/).