Come estrarre testo da PDF scansionato in C#

Questo tutorial passo passo mostra come estrarre il testo da PDF scansionato in C#. Quando si scansionano i documenti in un PDF, quelle pagine vengono aggiunte come immagini scansionate all’interno del file PDF. Quindi, per estrarre il testo dal file PDF scansionato, dovrai effettivamente estrarre il testo dalle immagini in PDF in C# applicando il riconoscimento ottico dei caratteri (OCR).

Passaggi per estrarre testo da PDF scansionato in C#

  1. Ottieni Aspose.OCR for .NET dal gestore di pacchetti NuGet.org
  2. Aggiungi riferimento a Aspose.OCR namespace
  3. Applicare il codice di licenza utilizzando il metodo SetLicense
  4. Avvia un’istanza della classe AsposeOcr
  5. Specifica le impostazioni di riconoscimento utilizzando DocumentRecognitionSettings class
  6. Estrai tutte le pagine PDF usando il metodo RecognizePDF
  7. Ottieni testo da ogni pagina PDF utilizzando la proprietà RecognitionText

Con l’aiuto dei passaggi precedenti, puoi leggere il testo dal PDF scansionato in C# in modo rapido e semplice. In precedenza, ti abbiamo mostrato come Estrai testo dall’immagine in C#. Tuttavia, questo esempio ti aiuta a ottenere testo da PDF in C#.

Codice per estrarre testo da PDF scansionato in C#

L’esempio C# precedente per ottenere testo da PDF è semplice e facile da capire. Stiamo semplicemente leggendo un file PDF scansionato e quindi estraiamo il testo da ogni pagina. Tuttavia, un punto importante da comprendere qui è la proprietà DetectArea. Se lo imposti su true, ti fornirà maggiore precisione ma ridurrà la velocità di elaborazione del PDF. Tuttavia, impostandolo su false, la velocità migliorerà e la precisione potrebbe essere leggermente ridotta. Quindi devi scegliere tra le due opzioni in base alla tua situazione.

 Italiano