Šioje nuoseklioje mokymo programoje parodyta, kaip išgauti tekstą iš nuskaityto PDF C#. Kai nuskaitote dokumentus į PDF, tie puslapiai pridedami kaip nuskaityti vaizdai į PDF failą. Taigi, norėdami išgauti tekstą iš nuskaityto PDF failo, iš tikrųjų turėsite išgauti tekstą iš vaizdų PDF formatu C#, taikydami optinį simbolių atpažinimą (OCR).

Veiksmai, kaip ištraukti tekstą iš nuskaityto PDF C#

Gaukite Aspose.OCR for .NET iš NuGet.org paketų tvarkyklės
Pridėti nuorodą į Aspose.OCR namespace
Taikykite licencijos kodą naudodami SetLicense metodą
Inicijuoti AsposeOcr klasės egzempliorių
Nurodykite atpažinimo nustatymus naudodami DocumentRecognitionSettings class
Išskleiskite visus PDF puslapius naudodami RecognizePDF metodą
Gaukite tekstą iš kiekvieno PDF puslapio naudodami RecognitionText nuosavybę

Atlikdami aukščiau nurodytus veiksmus, galite greitai ir lengvai skaityti tekstą iš nuskaityto PDF formato C#. Anksčiau parodėme, kaip Ištraukite tekstą iš vaizdo C#. Tačiau šis pavyzdys padeda gauti tekstą iš PDF C#.

Kodas, skirtas ištraukti tekstą iš nuskaityto PDF C#

Aukščiau pateiktas C# gavimo teksto iš PDF pavyzdys yra paprastas ir lengvai suprantamas. Mes tiesiog skaitome nuskaitytą PDF failą ir ištraukiame tekstą iš kiekvieno puslapio. Tačiau vienas svarbus dalykas, kurį reikia suprasti, yra “DetectArea” nuosavybė. Jei nustatysite teisingą, tai suteiks daugiau tikslumo, bet sumažins PDF apdorojimo greitį. Tačiau nustačius klaidingą, greitis pagerės, o tikslumas gali šiek tiek sumažėti. Taigi, atsižvelgdami į savo situaciją, turite pasirinkti vieną iš dviejų variantų.

Aspose Zināšanu pamats

Atrodiet API atbildes

Kaip ištraukti tekstą iš nuskaityto PDF C#

Veiksmai, kaip ištraukti tekstą iš nuskaityto PDF C#

Kodas, skirtas ištraukti tekstą iš nuskaityto PDF C#