Deze stapsgewijze zelfstudie laat u zien hoe u tekst uit gescande PDF in C# haalt. Wanneer u documenten naar een PDF scant, worden die pagina’s toegevoegd als gescande afbeeldingen in het PDF-bestand. Dus om tekst uit het gescande PDF-bestand te extraheren, moet je eigenlijk tekst uit afbeeldingen in PDF in C# extraheren door Optical Character Recognition (OCR) toe te passen.

Stappen om tekst uit gescande PDF te extraheren in C#

Verkrijg Aspose.OCR for .NET van NuGet.org pakketbeheerder
Referentie toevoegen aan Aspose.OCR namespace
Pas licentiecode toe met behulp van de SetLicense-methode
Een instantie van AsposeOcr Class starten
Geef herkenningsinstellingen op met DocumentRecognitionSettings class
Pak alle PDF-pagina’s uit met de methode RecognizePDF
Tekst van elke PDF-pagina ophalen met de eigenschap RecognitionText

Met behulp van de bovenstaande stappen kunt u snel en gemakkelijk tekst uit gescande PDF in C# lezen. Eerder hebben we u laten zien hoe u Tekst uit afbeelding extraheren in C# kunt gebruiken. Dit voorbeeld helpt u echter om tekst uit PDF in C# te halen.

Code om tekst uit gescande PDF te extraheren in C#

Het bovenstaande C#-tekst uit PDF-voorbeeld is eenvoudig en gemakkelijk te begrijpen. We lezen gewoon een gescand PDF-bestand en extraheren tekst van elke pagina. Een belangrijk punt dat u hier moet begrijpen, is echter de eigenschap DetectArea. Als u dit instelt op true, krijgt u meer nauwkeurigheid, maar vermindert het de verwerkingssnelheid van de PDF. Door deze echter op false in te stellen, zal de snelheid verbeteren en kan de nauwkeurigheid iets afnemen. U moet dus kiezen tussen de twee opties op basis van uw situatie.

Aspose Kennis basis

Vind antwoorden door API

Hoe tekst uit gescande PDF te extraheren in C#

Stappen om tekst uit gescande PDF te extraheren in C#

Code om tekst uit gescande PDF te extraheren in C#