Цей короткий підручник пояснює, як перетворити сканований PDF у редагований PDF за допомогою Java. Він містить деталі налаштування IDE, список кроків та зразковий код для перетворення сканованого PDF у пошуковий PDF за допомогою Java. Ви отримаєте детальну інформацію про налаштування процесу сканування зображення та перетворення вмісту у читабельний текст.
Кроки для того, щоб зробити PDF читабельним за допомогою Java
- Налаштуйте IDE на використання Aspose.Total for Java, щоб перетворити сканований PDF у пошуковий PDF
- Отримайте відповідні ліцензії продукту, щоб уникнути водяних знаків у виводі
- Створіть екземпляр рушія розпізнавання, використовуючи клас AsposeOCR
- Створіть екземпляр вводу за допомогою класу OcrInput і завантажте в нього вихідний сканований PDF.
- Створіть екземпляр RecognitionSettings для встановлення параметрів налаштування під час сканування зображення
- Викличте метод AsposeOCR.Recognize(), щоб отримати дані зі сканованого PDF і зберегти їх у тимчасовий PDF
- Завантажте проміжний PDF у об’єкт класу Document Aspose.PDF та встановіть у ньому метадані.
- Збережіть фінальний PDF на диску з текстом, що піддається пошуку, та метаданими
Ці кроки описують, як конвертувати зображення PDF у текст PDF за допомогою Java. Створіть об’єкт движка розпізнавання, підготуйте вхідний файл, додавши сканований PDF‑файл до об’єкта OcrInput, визначте параметри в об’єкті RecognitionSettings, викличте метод Recognize() для сканування даних і збережіть результати в проміжному PDF‑файлі. Нарешті, завантажте проміжний PDF‑файл за допомогою об’єкта Aspose.PDF.Document і додайте метадані або відформатуйте його далі перед збереженням фінального PDF‑файлу.
Код для перетворення зображення PDF у текст за допомогою Java
Цей код демонструє, як перетворити PDF у пошуковий PDF за допомогою Java. Ви можете встановити конкретну мову розпізнавання під час сканування PDF, встановити прапорець для автоматичного визначення мови, обмежити розпізнавання певними символами або занести у чорний список символи, які ви хочете, щоб OCR ігнорував. Також доступні параметри для вибору стратегії визначення області/розташування вихідного документа, якщо це потрібно.
Ця стаття навчила нас процесу перетворення PDF у PDF з можливістю виділення тексту. Щоб експортувати дані з PDF‑форми в Excel, зверніться до статті Export Data from a PDF Form to Excel using Java.