Extraire du texte d'un PDF à l'aide de Python

Ce guide contient des informations sur la façon d’extraire du texte de PDF à l’aide de Python. Il contient tous les détails pour définir l’environnement, une liste d’étapes et un exemple de code pour extraire du texte d’un PDF avec quelques appels d’API à l’aide de Python. Vous apprendrez à lire les données d’un ou de plusieurs fichiers PDF et à afficher le texte renvoyé par ce processus.

Étapes pour récupérer du texte à partir d’un PDF à l’aide de Python

  1. Définir l’environnement pour utiliser Aspose.OCR for Python via .NET pour lire un PDF
  2. Créez l’objet AsposeOcr pour extraire le texte d’un PDF
  3. Créez l’objet de classe OcrInput et définissez le type d’entrée sur PDF
  4. Ajouter des fichiers PDF à la collection d’entrée
  5. Appelez la méthode recognize() pour lire les données de la collection PDF
  6. Afficher le texte de reconnaissance de la collection renvoyée

Ces étapes résument le processus d’extraction de texte à partir d’un document PDF à l’aide de Python. Créez l’objet de classe AsposeOcr qui contient des méthodes permettant de reconnaître le texte d’un PDF et de nombreux autres formats. Utilisez l’objet de classe OcrInput pour définir le type d’entrée sur PDF et ajouter la collection d’entrée de fichiers PDF. Enfin, appelez la méthode recognize() et affichez le texte renvoyé.

Code pour extraire du texte d’un PDF à l’aide de Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Ce code illustre le développement d’un lecteur OCR PDF à l’aide de Python. La classe AsposeOcr contient un certain nombre de propriétés et de méthodes permettant de personnaliser le processus de reconnaissance, comme le calcul de l’inclinaison, la correction de l’orthographe du texte détecté et la détection du rectangle. Si vous ajoutez plusieurs fichiers PDF, tout le texte des fichiers PDF est renvoyé sous la forme d’une collection de chaînes pouvant être affichées en itérant la collection renvoyée.

Cet article nous a montré le processus d’extraction de texte à partir d’un PDF. Pour extraire du texte à partir d’images, reportez-vous à l’article sur Extraire du texte d’une image à l’aide de Python.

 Français