Questo breve tutorial ti guida su come leggere i contenuti PDF in Python. Introduce tutte le risorse, le classi necessarie ei metodi da utilizzare nell’applicazione. Contiene anche un codice di esempio eseguibile per leggere pdf usando python con l’aiuto di pochissime righe di codice senza utilizzare altri strumenti di terze parti.
Passi per leggere PDF con Python
- Imposta l’IDE su usa Aspose.PDF per Python tramite .NET per leggere il testo PDF
- Carica il file PDF di origine utilizzando l’oggetto Document i cui dati devono essere letti
- Crea un’istanza di un oggetto TextAbsorber per estrarre il testo dal PDF
- Chiama il metodo accept() per leggere l’intero testo nel file PDF caricato
- Visualizza il testo estratto utilizzando la proprietà Text dell’oggetto TextAbsorber
Questi passaggi riassumono il processo per leggere un file PDF in Python introducendo la classe Document per caricare il file PDF, l’oggetto della classe TextAbsorber per recuperare il testo dal PDF e il metodo accept() che riempie effettivamente la proprietà text del Oggetto TextAbsorber. Una volta chiamato il metodo accept(), i dati della stringa nella proprietà text possono essere stampati o analizzati per qualsiasi ulteriore elaborazione.
Codice per leggere file PDF in Python
Il segmento di codice sopra mostra il processo per estrarre i dati dal file PDF usando Python. La classe TextAbsorber supporta TextFormattingMode per estrarre il testo in modalità pura, non elaborata, appiattita o con risparmio di memoria. Inoltre, la classe TextAbsorber restituisce un elenco di errori durante il recupero dei dati dal PDF e supporta la definizione di un rettangolo all’interno del quale il testo viene recuperato dalla pagina Pdf.
Questo articolo ci ha insegnato a leggere un PDF in Python. Se vuoi imparare il processo per leggere i segnalibri da un PDF, fai riferimento all’articolo su come leggere i segnalibri in Pdf usando Python.