Deze stapsgewijze zelfstudie laat u zien hoe u tekst uit gescande PDF in C# haalt. Wanneer u documenten naar een PDF scant, worden die pagina’s toegevoegd als gescande afbeeldingen in het PDF-bestand. Dus om tekst uit het gescande PDF-bestand te extraheren, moet je eigenlijk tekst uit afbeeldingen in PDF in C# extraheren door Optical Character Recognition (OCR) toe te passen.
Stappen om tekst uit gescande PDF te extraheren in C#
- Verkrijg Aspose.OCR for .NET van NuGet.org pakketbeheerder
- Referentie toevoegen aan Aspose.OCR namespace
- Pas licentiecode toe met behulp van de SetLicense-methode
- Een instantie van AsposeOcr Class starten
- Geef herkenningsinstellingen op met DocumentRecognitionSettings class
- Pak alle PDF-pagina’s uit met de methode RecognizePDF
- Tekst van elke PDF-pagina ophalen met de eigenschap RecognitionText
Met behulp van de bovenstaande stappen kunt u snel en gemakkelijk tekst uit gescande PDF in C# lezen. Eerder hebben we u laten zien hoe u Tekst uit afbeelding extraheren in C# kunt gebruiken. Dit voorbeeld helpt u echter om tekst uit PDF in C# te halen.
Code om tekst uit gescande PDF te extraheren in C#
Het bovenstaande C#-tekst uit PDF-voorbeeld is eenvoudig en gemakkelijk te begrijpen. We lezen gewoon een gescand PDF-bestand en extraheren tekst van elke pagina. Een belangrijk punt dat u hier moet begrijpen, is echter de eigenschap DetectArea. Als u dit instelt op true, krijgt u meer nauwkeurigheid, maar vermindert het de verwerkingssnelheid van de PDF. Door deze echter op false in te stellen, zal de snelheid verbeteren en kan de nauwkeurigheid iets afnemen. U moet dus kiezen tussen de twee opties op basis van uw situatie.