Bài hướng dẫn ngắn này chỉ cách chuyển đổi PDF đã quét sang PDF có thể chỉnh sửa bằng Java. Nó bao gồm chi tiết về cấu hình IDE, danh sách các bước, và mã mẫu để chuyển đổi PDF đã quét sang PDF có thể tìm kiếm bằng Java. Bạn sẽ nhận được chi tiết để tùy chỉnh quy trình quét hình ảnh và chuyển đổi nội dung thành văn bản có thể đọc được.
Các bước để làm PDF có thể đọc được bằng Java
- Đặt IDE sử dụng Aspose.Total for Java để chuyển đổi PDF đã quét thành PDF có thể tìm kiếm
- Khởi tạo các giấy phép sản phẩm tương ứng để tránh dấu watermark trong đầu ra
- Tạo một thể hiện của công cụ nhận dạng bằng cách sử dụng lớp AsposeOCR
- Tạo đối tượng đầu vào bằng cách sử dụng lớp OcrInput và tải PDF quét nguồn vào đó
- Tạo thể hiện RecognitionSettings để đặt các tham số cho việc tùy chỉnh trong quá trình quét hình ảnh
- Gọi phương thức AsposeOCR.Recognize() để lấy dữ liệu từ PDF đã quét và lưu vào một PDF tạm thời
- Tải PDF trung gian vào đối tượng lớp Document của Aspose.PDF và đặt siêu dữ liệu cho nó
- Lưu PDF cuối cùng lên đĩa với văn bản có thể tìm kiếm và siêu dữ liệu
Các bước này mô tả cách chuyển hình ảnh PDF sang văn bản PDF bằng Java. Tạo đối tượng công cụ nhận dạng, chuẩn bị tệp đầu vào bằng cách thêm tệp PDF đã quét vào đối tượng OcrInput, xác định các tham số trong đối tượng RecognitionSettings, gọi phương thức Recognize() để quét dữ liệu và lưu kết quả vào tệp PDF trung gian. Cuối cùng, tải tệp PDF trung gian bằng đối tượng Aspose.PDF.Document và thêm siêu dữ liệu hoặc định dạng thêm trước khi lưu tệp PDF cuối cùng.
Mã để Chuyển Đổi Hình Ảnh PDF thành Văn Bản bằng Java
Đoạn mã này trình bày cách chuyển PDF sang PDF có thể tìm kiếm được bằng Java. Bạn có thể đặt ngôn ngữ phát hiện cụ thể khi quét PDF, đặt cờ để tự động phát hiện ngôn ngữ, hạn chế nhận dạng chỉ các ký tự cụ thể hoặc danh sách đen các ký tự mà bạn muốn OCR bỏ qua. Các tùy chọn cũng có sẵn để chọn chiến lược phát hiện khu vực/bố cục tài liệu nguồn nếu cần.
Bài viết này đã dạy chúng tôi quy trình chuyển đổi PDF sang PDF có thể chọn được văn bản. Để xuất dữ liệu từ mẫu PDF sang Excel, hãy tham khảo bài viết Xuất dữ liệu từ mẫu PDF sang Excel bằng Java.