Tekst uit PDF extraheren met Python

Deze gids bevat informatie over hoe u tekst uit PDF kunt extraheren met Python. Het bevat alle details om de omgeving in te stellen, een lijst met stappen en een voorbeeldcode om tekst uit PDF te rippen met een paar API-aanroepen met Python. U leert hoe u gegevens uit één of meerdere PDF-bestanden kunt lezen en de tekst kunt weergeven die door dit proces wordt geretourneerd.

Stappen om tekst uit PDF te halen met Python

  1. Stel de omgeving in om Aspose.OCR for Python via .NET te gebruiken om een PDF te lezen
  2. Maak het AsposeOcr-object om tekst uit een PDF te rippen
  3. Maak het OcrInput-klasseobject en stel het invoertype in op PDF
  4. PDF-bestanden toevoegen aan de invoercollectie
  5. Roep de recognize()-methode aan om gegevens uit de PDF-verzameling te lezen
  6. Geef de herkenningstekst weer uit de geretourneerde collectie

Deze stappen vatten het proces samen om tekst uit een PDF-document te extraheren met Python. Maak het AsposeOcr-klasseobject dat methoden bevat om tekst uit PDF en vele andere formaten te herkennen. Gebruik het OcrInput-klasseobject om het invoertype in te stellen op PDF en de invoerverzameling van PDF-bestanden toe te voegen. Roep ten slotte de recognize()-methode aan en geef de geretourneerde tekst weer.

Code om tekst uit PDF te extraheren met Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Deze code demonstreert de ontwikkeling van een PDF OCR-lezer met Python. De AsposeOcr-klasse bevat een aantal eigenschappen en methoden om het herkenningsproces aan te passen, zoals het berekenen van de scheefstand, het corrigeren van de spelling in de gedetecteerde tekst en het detecteren van rechthoeken. Als u meerdere PDF-bestanden toevoegt, wordt alle tekst uit de PDF’s geretourneerd als een verzameling van de strings die kunnen worden weergegeven door de geretourneerde verzameling te itereren.

Dit artikel heeft ons het proces geleerd om tekst uit PDF te extraheren. Om tekst uit afbeeldingen te extraheren, raadpleeg het artikel op Tekst uit afbeelding halen met Python.

 Nederlands