Конвертувати сканований PDF у редагований PDF за допомогою Java

Цей короткий підручник пояснює, як перетворити сканований PDF у редагований PDF за допомогою Java. Він містить деталі налаштування IDE, список кроків та зразковий код для перетворення сканованого PDF у пошуковий PDF за допомогою Java. Ви отримаєте детальну інформацію про налаштування процесу сканування зображення та перетворення вмісту у читабельний текст.

Кроки для того, щоб зробити PDF читабельним за допомогою Java

  1. Налаштуйте IDE на використання Aspose.Total for Java, щоб перетворити сканований PDF у пошуковий PDF
  2. Отримайте відповідні ліцензії продукту, щоб уникнути водяних знаків у виводі
  3. Створіть екземпляр рушія розпізнавання, використовуючи клас AsposeOCR
  4. Створіть екземпляр вводу за допомогою класу OcrInput і завантажте в нього вихідний сканований PDF.
  5. Створіть екземпляр RecognitionSettings для встановлення параметрів налаштування під час сканування зображення
  6. Викличте метод AsposeOCR.Recognize(), щоб отримати дані зі сканованого PDF і зберегти їх у тимчасовий PDF
  7. Завантажте проміжний PDF у об’єкт класу Document Aspose.PDF та встановіть у ньому метадані.
  8. Збережіть фінальний PDF на диску з текстом, що піддається пошуку, та метаданими

Ці кроки описують, як конвертувати зображення PDF у текст PDF за допомогою Java. Створіть об’єкт движка розпізнавання, підготуйте вхідний файл, додавши сканований PDF‑файл до об’єкта OcrInput, визначте параметри в об’єкті RecognitionSettings, викличте метод Recognize() для сканування даних і збережіть результати в проміжному PDF‑файлі. Нарешті, завантажте проміжний PDF‑файл за допомогою об’єкта Aspose.PDF.Document і додайте метадані або відформатуйте його далі перед збереженням фінального PDF‑файлу.

Код для перетворення зображення PDF у текст за допомогою Java

Цей код демонструє, як перетворити PDF у пошуковий PDF за допомогою Java. Ви можете встановити конкретну мову розпізнавання під час сканування PDF, встановити прапорець для автоматичного визначення мови, обмежити розпізнавання певними символами або занести у чорний список символи, які ви хочете, щоб OCR ігнорував. Також доступні параметри для вибору стратегії визначення області/розташування вихідного документа, якщо це потрібно.

Ця стаття навчила нас процесу перетворення PDF у PDF з можливістю виділення тексту. Щоб експортувати дані з PDF‑форми в Excel, зверніться до статті Export Data from a PDF Form to Excel using Java.

 Українська