Cách trích xuất văn bản từ PDF được quét trong Java

Hướng dẫn nhanh này cung cấp chi tiết về cách trích xuất văn bản từ tệp PDF được quét bằng Java. Bạn có thể định cấu hình quy trình trích xuất văn bản từ tệp PDF được quét bằng Java này bằng cách đặt các tham số phát hiện. Tùy chọn này cũng có sẵn để thực hiện lựa chọn giữa tốc độ hoặc độ chính xác tùy thuộc vào chất lượng PDF và các yêu cầu ứng dụng khác.

Các bước để trích xuất văn bản từ PDF được quét trong Java

  1. Từ kho lưu trữ Maven, định cấu hình Aspose.OCR trong dự án của bạn để đọc văn bản PDF được quét
  2. Khởi tạo đối tượng AsposeOcrPdf để đọc văn bản từ PDF
  3. Khởi tạo đối tượng lớp DocumentRecognitionSettings để đặt tham số nhận dạng
  4. Đặt trang bắt đầu và số trang trong PDF để đọc văn bản
  5. Để tăng tốc độ phát hiện, hãy đặt cờ vùng phát hiện thành sai
  6. Gọi hàm RecognizePdf để đọc toàn bộ văn bản theo cấu hình trên
  7. Lặp lại tất cả các kết quả được trích xuất từ các trang PDF và hiển thị chúng trên bảng điều khiển

Trong quá trình quét văn bản từ PDF trong Java, một đối tượng của AsposeOCRPdf được bắt đầu thực sự chứa các tính năng để nhận dạng văn bản từ PDF. Nó hỗ trợ định cấu hình quy trình phát hiện như số trang bắt đầu, số trang PDF sẽ đọc và tùy chọn đặt vùng phát hiện để kiểm soát tốc độ và độ chính xác. Cuối cùng, chúng tôi phân tích bộ sưu tập kết quả được quét từ mỗi trang và hiển thị chúng trên bảng điều khiển.

Mã để chuyển đổi PDF được quét thành văn bản trong Java

Mã này sử dụng AsposeOCRPdf để lấy văn bản từ tệp PDF được quét bằng Java. Đối tượng lớp DocumentRecognitionSettings chứa các tùy chọn để đặt cấu hình trang bằng cách sử dụng hàm tạo như được minh họa trong mã mẫu này hoặc bằng cách đặt riêng StartPage và PagesNumber. Bạn cũng có thể đặt ngôn ngữ, hiệu chỉnh độ lệch hình ảnh và số lượng chuỗi để phát hiện song song văn bản từ tệp PDF được quét.

Trong bài viết này, chúng ta đã học cách trích xuất văn bản từ PDF được quét bằng Java cùng với cấu hình của quy trình phát hiện. Tuy nhiên, nếu bạn muốn trích xuất văn bản từ hình ảnh, hãy tham khảo bài viết trên cách trích xuất văn bản từ hình ảnh bằng Java.

 Tiếng Việt