Cách đọc tệp PDF trong Java

Hướng dẫn ngắn gọn này hướng dẫn bạn cách đọc tệp PDF trong Java. Nó chứa mã Java để đọc tệp PDF như vậy trước tiên, bạn đọc văn bản từ PDF bằng Java thành một chuỗi rồi sau đó tìm nạp tất cả hình ảnh từ tệp PDF để lưu chúng vào đĩa dưới dạng JPG. Không cần cài đặt bất kỳ công cụ của bên thứ ba nào để đọc PDF bằng Java.

Các bước để đọc tệp PDF trong Java

  1. Định cấu hình Aspose.PDF vào dự án của bạn bằng cách sử dụng kho lưu trữ Maven để đọc tệp PDF
  2. Tải tệp PDF mẫu vào đối tượng lớp Document
  3. Khởi tạo đối tượng lớp TextAbsorber có thể đọc toàn bộ văn bản từ tệp PDF
  4. Đọc văn bản PDF từ tệp đã tải bằng đối tượng lớp TextAbsorber
  5. Hiển thị toàn bộ văn bản đã đọc từ tệp PDF trên bảng điều khiển
  6. Lặp lại tất cả các trang trong tệp PDF để truy cập hình ảnh
  7. Phân tích tất cả các hình ảnh trên mỗi bộ sưu tập hình ảnh trang và lưu chúng vào đĩa

Trong hướng dẫn nhanh từng bước này, trước tiên chúng tôi tải tệp PDF đích và sau đó khởi tạo đối tượng lớp TextAbsorber có khả năng tìm kiếm văn bản qua tất cả các trang trong tệp PDF. Toàn bộ văn bản này được trả về thành một chuỗi có thể được hiển thị hoặc xử lý theo yêu cầu. Tương tự, chúng ta có thể phân tích cú pháp tất cả các hình ảnh trong bộ sưu tập hình ảnh và lưu chúng trên đĩa ở bất kỳ định dạng nào như chúng ta đã lưu dưới dạng JPG trong hướng dẫn này.

Mã để đọc PDF bằng Java

Trong mã mẫu này, chúng tôi đã sử dụng lớp TextAbsorber và hàm getImages() của Page.getResources() để đọc PDF bằng Java. Đối tượng TextAbsorber được sử dụng để đọc văn bản bằng chức năng chấp nhận trong PDF PageCollection. Trong khi hàm getImages() của bộ sưu tập getResources() trả về tất cả các hình ảnh trên một trang.

Lưu ý rằng các bước đọc PDF trong Java này có thể được thực hiện trong bất kỳ hệ điều hành nào như Windows, Linux hoặc macOS. Nếu bạn muốn tìm hiểu thêm về cách làm việc với tệp PDF, hãy tham khảo bài viết trên cách đọc dấu trang trong PDF bằng Java.

 Tiếng Việt