Ez a lépésről lépésre bemutatja, hogyan bonthat ki szöveget a beolvasott PDF-ból C#-ban. Amikor dokumentumokat PDF-be olvas be, ezek az oldalak beolvasott képként kerülnek be a PDF-fájlba. Tehát ahhoz, hogy a beolvasott PDF-fájlból szöveget tudjon kivonni, valójában szöveget kell kivonnia a PDF formátumú képekből C#-ban az optikai karakterfelismerés (OCR) alkalmazásával.

Szöveg kibontásának lépései a beolvasott PDF-ből C#-ban

Szerezze be a Aspose.OCR for .NET szolgáltatást a NuGet.org csomagkezelőből
Hivatkozás hozzáadása a következőhöz: Aspose.OCR namespace
Alkalmazza a licenckódot a SetLicense metódussal
Indítsa el az AsposeOcr osztály példányát
Adja meg a felismerési beállításokat a DocumentRecognitionSettings class használatával
Az összes PDF-oldal kibontása a RecognizePDF módszerrel
Szöveg lekérése minden PDF-oldalról a RecognitionText tulajdonság segítségével

A fenti lépések segítségével gyorsan és egyszerűen olvashat C# nyelven beolvasott PDF-ből szöveget. Korábban megmutattuk, hogyan kell Szöveg kibontása a képből C#-ban. Ez a példa azonban segít abban, hogy szöveget kapjon PDF-ből C#-ban.

Kód a beolvasott PDF-ből szöveg kinyeréséhez C#-ban

A fenti C# get text from PDF példa egyszerű és könnyen érthető. Egyszerűen beolvasunk egy beolvasott PDF-fájlt, majd minden oldalról kivonunk szöveget. Azonban egy fontos szempont, amelyet itt meg kell érteni, a DetectArea tulajdonság. Ha igazra állítja, akkor nagyobb pontosságot biztosít, de csökkenti a PDF feldolgozásának sebességét. Ha azonban false értékre állítja, a sebesség javul, és a pontosság kissé csökkenhet. Tehát a két lehetőség közül kell választania az Ön helyzete alapján.

Aspose Tudásbázis

Keresse meg a válaszokat API-val

Hogyan lehet szöveget kivonni a beolvasott PDF-ből C#-ban

Szöveg kibontásának lépései a beolvasott PDF-ből C#-ban

Kód a beolvasott PDF-ből szöveg kinyeréséhez C#-ban