Ce didacticiel étape par étape vous montre comment extraire le texte de PDF numérisé en C#. Lorsque vous numérisez des documents dans un PDF, ces pages sont ajoutées en tant qu’images numérisées dans le fichier PDF. Ainsi, pour extraire le texte du fichier PDF numérisé, vous devrez en fait extraire le texte des images au format PDF en C# en appliquant la reconnaissance optique de caractères (OCR).
Étapes pour extraire le texte d’un PDF numérisé en C#
- Obtenez Aspose.OCR for .NET du gestionnaire de packages NuGet.org
- Ajouter une référence à Aspose.OCR namespace
- Appliquer le code de licence à l’aide de la méthode SetLicense
- Initier une instance de la classe AsposeOcr
- Spécifiez les paramètres de reconnaissance à l’aide de DocumentRecognitionSettings class
- Extraire toutes les pages PDF à l’aide de la méthode RecognizePDF
- Obtenir le texte de chaque page PDF à l’aide de la propriété RecognitionText
À l’aide des étapes ci-dessus, vous pouvez lire rapidement et facilement le texte d’un PDF numérisé en C#. Plus tôt, nous vous avons montré comment Extraire le texte de l’image en C#. Cependant, cet exemple vous aide à obtenir du texte à partir d’un PDF en C#.
Code pour extraire le texte d’un PDF numérisé en C#
L’exemple ci-dessus d’obtention de texte à partir d’un PDF en C# est simple et facile à comprendre. Nous lisons simplement un fichier PDF numérisé, puis extrayons le texte de chaque page. Cependant, un point important à comprendre ici est la propriété DetectArea. Si vous le définissez sur true, cela vous fournira plus de précision mais réduira la vitesse de traitement du PDF. Cependant, en le réglant sur false, la vitesse s’améliorera et la précision pourrait être un peu réduite. Vous devez donc choisir entre les deux options en fonction de votre situation.