Convertir un PDF numérisé en PDF modifiable avec Java

Ce court tutoriel explique comment convertir le PDF numérisé en PDF modifiable avec Java. Il comprend des détails pour configurer l’IDE, une liste d’étapes et du code d’exemple pour convertir un PDF numérisé en PDF consultable avec Java. Vous obtiendrez des informations pour personnaliser le processus de numérisation d’image et de conversion du contenu en texte lisible.

Étapes pour rendre le PDF lisible avec Java

  1. Configurez l’IDE pour utiliser Aspose.Total for Java afin de transformer un PDF numérisé en PDF consultable
  2. Instancier les licences produit respectives pour éviter les filigranes dans la sortie
  3. Créez une instance du moteur de reconnaissance en utilisant la classe AsposeOCR
  4. Créez l’instance d’entrée en utilisant la classe OcrInput et chargez le PDF numérisé source dans celle-ci.
  5. Créez l’instance RecognitionSettings pour définir les paramètres de la personnalisation lors de l’analyse d’image
  6. Appelez la méthode AsposeOCR.Recognize() pour récupérer les données du PDF numérisé et les stocker dans un PDF temporaire.
  7. Chargez le PDF intermédiaire dans l’objet de classe Document d’Aspose.PDF et définissez les métadonnées dans celui-ci.
  8. Enregistrez le PDF final sur le disque avec du texte consultable et des métadonnées

Ces étapes décrivent comment convertir image PDF en texte PDF avec Java. Créez l’objet du moteur de reconnaissance, préparez le fichier d’entrée en ajoutant le fichier PDF numérisé à l’objet OcrInput, définissez les paramètres dans l’objet RecognitionSettings, appelez la méthode Recognize() pour analyser les données et enregistrer les résultats dans un fichier PDF intermédiaire. Enfin, chargez le fichier PDF intermédiaire en utilisant l’objet Aspose.PDF.Document et ajoutez des métadonnées ou formatez‑le davantage avant d’enregistrer le fichier PDF final.

Code pour convertir une image PDF en texte avec Java

Ce code montre comment convertir un PDF en PDF recherchable avec Java. Vous pouvez définir une langue de détection spécifique lors de l’analyse du PDF, activer un drapeau pour la détection automatique de la langue, restreindre la reconnaissance à des caractères spécifiques ou mettre sur liste noire les caractères que vous souhaitez que l’OCR ignore. Des options sont également disponibles pour choisir la stratégie de détection de la zone/la mise en page du document source si nécessaire.

Cet article nous a enseigné le processus de conversion d’un PDF en PDF texte sélectionnable. Pour exporter des données d’un formulaire PDF vers Excel, consultez l’article Exporter des données d’un formulaire PDF vers Excel avec Java.

 Français