Hoe tekst uit gescande PDF te extraheren in C#

Deze stapsgewijze zelfstudie laat u zien hoe u tekst uit gescande PDF in C# haalt. Wanneer u documenten naar een PDF scant, worden die pagina’s toegevoegd als gescande afbeeldingen in het PDF-bestand. Dus om tekst uit het gescande PDF-bestand te extraheren, moet je eigenlijk tekst uit afbeeldingen in PDF in C# extraheren door Optical Character Recognition (OCR) toe te passen.

Stappen om tekst uit gescande PDF te extraheren in C#

  1. Verkrijg Aspose.OCR for .NET van NuGet.org pakketbeheerder
  2. Referentie toevoegen aan Aspose.OCR namespace
  3. Pas licentiecode toe met behulp van de SetLicense-methode
  4. Een instantie van AsposeOcr Class starten
  5. Geef herkenningsinstellingen op met DocumentRecognitionSettings class
  6. Pak alle PDF-pagina’s uit met de methode RecognizePDF
  7. Tekst van elke PDF-pagina ophalen met de eigenschap RecognitionText

Met behulp van de bovenstaande stappen kunt u snel en gemakkelijk tekst uit gescande PDF in C# lezen. Eerder hebben we u laten zien hoe u Tekst uit afbeelding extraheren in C# kunt gebruiken. Dit voorbeeld helpt u echter om tekst uit PDF in C# te halen.

Code om tekst uit gescande PDF te extraheren in C#

Het bovenstaande C#-tekst uit PDF-voorbeeld is eenvoudig en gemakkelijk te begrijpen. We lezen gewoon een gescand PDF-bestand en extraheren tekst van elke pagina. Een belangrijk punt dat u hier moet begrijpen, is echter de eigenschap DetectArea. Als u dit instelt op true, krijgt u meer nauwkeurigheid, maar vermindert het de verwerkingssnelheid van de PDF. Door deze echter op false in te stellen, zal de snelheid verbeteren en kan de nauwkeurigheid iets afnemen. U moet dus kiezen tussen de twee opties op basis van uw situatie.

 Nederlands