Hướng dẫn ngắn này mô tả cách trích xuất văn bản từ PowerPoint bằng Python. Nó có chi tiết để thiết lập IDE, danh sách các bước, và một đoạn mã mẫu để chuyển đổi PowerPoint sang văn bản bằng Python. Nhiều kỹ thuật sẽ được thảo luận để lấy văn bản từ các slide.
Các bước trích xuất văn bản từ PPTX bằng Python
- Đặt IDE sử dụng Aspose.Slides for Python via .NET để trích xuất văn bản
- Nhập các lớp mong muốn từ thư viện và lớp tiện ích SlideUtil
- Xác định các đường dẫn tệp đầu vào/đầu ra và tải giấy phép
- Tải bản trình chiếu PowerPoint nguồn vào đối tượng Presentation
- Sử dụng SlideUtil.get_all_text_frames để trích xuất tất cả các khung văn bản từ mỗi slide
- Duyệt qua tất cả các khung văn bản và các đoạn văn của chúng để thu thập các phần văn bản riêng lẻ
- Xử lý mỗi khung và thêm nội dung slide vào một dòng mới
- Lưu tất cả các đoạn văn bản đã thu thập và lưu kết quả ra tệp TXT.
Các bước này giải thích quy trình phát triển một trình chuyển đổi PPTX sang văn bản bằng Python. Tải bản trình chiếu, lấy tất cả các khung văn bản từ nó, phân tích mỗi đoạn trong tất cả các khung, và lấy văn bản từ các phần trong chúng. Lưu toàn bộ dữ liệu đã thu thập vào một tệp văn bản với dấu ngắt dòng cho mỗi đoạn văn bản.
Mã cho Trình chuyển đổi PowerPoint sang Văn bản bằng Python
Mã này cho thấy cách chuyển đổi PPTX sang TXT bằng Python. Thay vì quét toàn bộ bản trình chiếu một lần, bạn có thể truy cập từng slide riêng biệt và xử lý chúng để lấy văn bản chỉ từ các slide đã chọn. Một tùy chọn khác là bạn không tải bản trình chiếu vào bộ nhớ mà chỉ sử dụng đường dẫn tệp để trích xuất văn bản của nó với một cờ để lấy văn bản theo thứ tự đã sắp xếp, như gốc hoặc theo thứ tự phẳng.
Bài viết ngắn này hướng dẫn cách trích xuất văn bản từ tệp PPTX. Để chuyển đổi bản trình chiếu sang video, tham khảo bài viết Chuyển đổi PowerPoint sang video bằng Python.