Kaip ištraukti tekstą iš nuskaityto PDF C#

Šioje nuoseklioje mokymo programoje parodyta, kaip išgauti tekstą iš nuskaityto PDF C#. Kai nuskaitote dokumentus į PDF, tie puslapiai pridedami kaip nuskaityti vaizdai į PDF failą. Taigi, norėdami išgauti tekstą iš nuskaityto PDF failo, iš tikrųjų turėsite išgauti tekstą iš vaizdų PDF formatu C#, taikydami optinį simbolių atpažinimą (OCR).

Veiksmai, kaip ištraukti tekstą iš nuskaityto PDF C#

  1. Gaukite Aspose.OCR for .NET iš NuGet.org paketų tvarkyklės
  2. Pridėti nuorodą į Aspose.OCR namespace
  3. Taikykite licencijos kodą naudodami SetLicense metodą
  4. Inicijuoti AsposeOcr klasės egzempliorių
  5. Nurodykite atpažinimo nustatymus naudodami DocumentRecognitionSettings class
  6. Išskleiskite visus PDF puslapius naudodami RecognizePDF metodą
  7. Gaukite tekstą iš kiekvieno PDF puslapio naudodami RecognitionText nuosavybę

Atlikdami aukščiau nurodytus veiksmus, galite greitai ir lengvai skaityti tekstą iš nuskaityto PDF formato C#. Anksčiau parodėme, kaip Ištraukite tekstą iš vaizdo C#. Tačiau šis pavyzdys padeda gauti tekstą iš PDF C#.

Kodas, skirtas ištraukti tekstą iš nuskaityto PDF C#

Aukščiau pateiktas C# gavimo teksto iš PDF pavyzdys yra paprastas ir lengvai suprantamas. Mes tiesiog skaitome nuskaitytą PDF failą ir ištraukiame tekstą iš kiekvieno puslapio. Tačiau vienas svarbus dalykas, kurį reikia suprasti, yra “DetectArea” nuosavybė. Jei nustatysite teisingą, tai suteiks daugiau tikslumo, bet sumažins PDF apdorojimo greitį. Tačiau nustačius klaidingą, greitis pagerės, o tikslumas gali šiek tiek sumažėti. Taigi, atsižvelgdami į savo situaciją, turite pasirinkti vieną iš dviejų variantų.

 Latviski