Hướng dẫn nhanh này giải thích cách chuyển đổi PDF sang Text bằng Python. Nó bao gồm các chi tiết cấu hình hệ thống và quy trình từng bước cùng với mã mẫu để thực hiện chuyển đổi dựa trên PDF sang văn bản Python. Ngoài ra, bạn có thể ghi văn bản được trích xuất vào tệp hoặc tại bảng điều khiển theo yêu cầu của mình.
Các bước để chuyển đổi PDF thành văn bản trong Python
- Định cấu hình hệ thống bằng cách cài đặt thư viện Aspose.PDF cho Python qua .NET
- Tải tệp PDF nguồn bằng lớp Document để chuyển đổi nó thành tệp Văn bản
- Tạo đối tượng lớp TextAbsorber để tìm nạp văn bản bằng phương thức Page.Accept()
- Tạo một tệp văn bản và viết chuỗi văn bản đầu ra trong tệp
Các bước này tóm tắt cách sử dụng chuyển đổi Python PDF sang TXT có thể được thực hiện với một vài lệnh gọi API. Trong bước đầu tiên, tải tệp PDF đầu vào và khởi tạo một đối tượng của TextAbsorber có thể được sử dụng để tìm nạp văn bản từ các trang. Sau đó, bạn cần lấy văn bản được trích xuất và ghi nó vào tệp TXT trong khi chỉ định đường dẫn và tên tệp.
Mã để chuyển đổi PDF thành văn bản trong Python
Đoạn mã này cho biết cách tạo PDF sang Trình chuyển đổi văn bản bằng Python. Nó tải tài liệu PDF nguồn bằng lớp Tài liệu. Sau đó, bạn có thể tìm nạp văn bản từ tất cả các trang của tệp PDF bằng phương thức chấp nhận hoặc đọc chuỗi văn bản từ một trang cụ thể bằng cách chỉ định số trang. Cuối cùng, ghi chuỗi văn bản vào một tệp và xuất tệp văn bản đó ra đĩa.
Trong bài viết này, chúng ta đã học cách sử dụng kết xuất Python PDF sang văn bản có thể được thực hiện với các ứng dụng của bạn. Tuy nhiên, nếu bạn muốn tìm hiểu chuyển đổi PDF sang Word, hãy đọc hướng dẫn trên cách chuyển đổi PDF sang Word bằng Python.