Questo breve tutorial fornisce dettagli su come estrarre il testo dal PDF scansionato in Java. È possibile configurare questo processo di estrazione del testo dal PDF scansionato in Java impostando i parametri di rilevamento. È inoltre disponibile l’opzione per effettuare una selezione tra la velocità o la precisione in base alla qualità di PDF e ad altri requisiti dell’applicazione.
Passaggi per estrarre testo da PDF scansionato in Java
- Dal repository Maven, configura Aspose.OCR nel tuo progetto per leggere il testo PDF scansionato
- Inizializza l’oggetto AsposeOcrPdf per leggere il testo dal PDF
- Istanziare l’oggetto classe DocumentRecognitionSettings per impostare i parametri di riconoscimento
- Imposta la pagina iniziale e il numero di pagine nel PDF per la lettura del testo
- Per aumentare la velocità di rilevamento, impostare il flag di rilevamento delle aree su false
- Chiama la funzione RecognizePdf per leggere tutto il testo secondo la configurazione sopra
- Scorri tutti i risultati estratti dalle pagine PDF e visualizzali sulla console
Durante il processo di scansione del testo da PDF in Java, viene avviato un oggetto di AsposeOCRPdf che contiene effettivamente le funzionalità per riconoscere il testo dal PDF. Supporta la configurazione del processo di rilevamento come il numero di pagina iniziale, il numero di pagine PDF da leggere e l’opzione per impostare le aree di rilevamento per il controllo di velocità e precisione. Infine, analizziamo la raccolta di risultati scansionata da ciascuna pagina e li visualizziamo sulla console.
Codice per convertire PDF scansionati in testo in Java
Questo codice usa AsposeOCRPdf per ottenere il testo dal PDF scansionato in Java. L’oggetto classe DocumentRecognitionSettings contiene opzioni per impostare la configurazione delle pagine usando il costruttore come illustrato in questo codice di esempio o impostando StartPage e PagesNumber separatamente. È inoltre possibile impostare la lingua, le correzioni dell’inclinazione dell’immagine e il conteggio dei thread per il rilevamento parallelo del testo dal PDF scansionato.
In questo articolo abbiamo imparato come estrarre il testo dal PDF scansionato in Java insieme alla configurazione del processo di rilevamento. Tuttavia, se desideri estrarre il testo da un’immagine, fai riferimento all’articolo su come estrarre il testo dall’immagine usando Java.