Kaip ištraukti tekstą iš nuskaityto PDF C#

Šioje nuoseklioje mokymo programoje parodyta, kaip išgauti tekstą iš nuskaityto PDF C#. Kai nuskaitote dokumentus į PDF, tie puslapiai pridedami kaip nuskaityti vaizdai į PDF failą. Taigi, norėdami išgauti tekstą iš nuskaityto PDF failo, iš tikrųjų turėsite išgauti tekstą iš vaizdų PDF formatu C#, taikydami optinį simbolių atpažinimą (OCR).

Veiksmai, kaip ištraukti tekstą iš nuskaityto PDF C#

  1. Gaukite Aspose.OCR for .NET iš NuGet.org paketų tvarkyklės
  2. Pridėti nuorodą į Aspose.OCR namespace
  3. Taikykite licencijos kodą naudodami SetLicense metodą
  4. Inicijuoti AsposeOcr klasės egzempliorių
  5. Nurodykite atpažinimo nustatymus naudodami DocumentRecognitionSettings class
  6. Išskleiskite visus PDF puslapius naudodami RecognizePDF metodą
  7. Gaukite tekstą iš kiekvieno PDF puslapio naudodami RecognitionText nuosavybę

Atlikdami aukščiau nurodytus veiksmus, galite greitai ir lengvai skaityti tekstą iš nuskaityto PDF formato C#. Anksčiau parodėme, kaip Ištraukite tekstą iš vaizdo C#. Tačiau šis pavyzdys padeda gauti tekstą iš PDF C#.

Kodas, skirtas ištraukti tekstą iš nuskaityto PDF C#

using System;
using System.Collections.Generic;
//Use following namespace to extract text from scanned PDF
using Aspose.OCR;
namespace ExtractTextFromScannedPDFFile
{
class Program
{
static void Main(string[] args)
{
//Set license before extracting text from scanned PDF file
Aspose.OCR.License AsposeOCRLicense = new Aspose.OCR.License();
AsposeOCRLicense.SetLicense(@"c:\asposelicense\license.lic");
//create AsposeOcr object
AsposeOcr ScannedPDFFile = new AsposeOcr();
//set recognition settings
DocumentRecognitionSettings RecognitionSettings = new DocumentRecognitionSettings();
RecognitionSettings.StartPage = 1;
RecognitionSettings.PagesNumber = 3;
//when set true, improves accuracy but reduces speed
RecognitionSettings.DetectAreas = false;
//extract text from specified pages
List<RecognitionResult> ExtractedResults = ScannedPDFFile.RecognizePdf("InputScannedPDFFile.pdf", RecognitionSettings);
//fetch extracted text of each page
int PageCounter = 1;
foreach(RecognitionResult SinglePage in ExtractedResults)
{
Console.WriteLine("Page: {0}, Extracted Text:{1}", PageCounter, SinglePage.RecognitionText);
PageCounter++;
}
}
}
}

Aukščiau pateiktas C# gavimo teksto iš PDF pavyzdys yra paprastas ir lengvai suprantamas. Mes tiesiog skaitome nuskaitytą PDF failą ir ištraukiame tekstą iš kiekvieno puslapio. Tačiau vienas svarbus dalykas, kurį reikia suprasti, yra “DetectArea” nuosavybė. Jei nustatysite teisingą, tai suteiks daugiau tikslumo, bet sumažins PDF apdorojimo greitį. Tačiau nustačius klaidingą, greitis pagerės, o tikslumas gali šiek tiek sumažėti. Taigi, atsižvelgdami į savo situaciją, turite pasirinkti vieną iš dviejų variantų.

 Latviski