Questo breve tutorial spiega come leggere i metadati PDF usando Python. Contiene informazioni dettagliate per impostare l’ambiente per lo sviluppo dell’applicazione, una procedura graduale e un codice di esempio eseguibile per estrarre metadati da PDF utilizzando Python. Imparerai quanto è facile scrivere l’applicazione e accedere alle informazioni sui metadati da PDF utilizzando pochissime chiamate API senza installare alcuno strumento di terze parti in nessuno degli ambienti supportati da Python.
Passaggi per leggere i metadati PDF utilizzando Python
- Stabilisci l’ambiente in usa Aspose.PDF per Python tramite .NET per leggere i metadati
- Carica il file PDF di origine utilizzando l’oggetto di classe Document per recuperare i metadati
- Ottieni l’accesso all’oggetto classe DocumentInfo contenente i metadati PDF
- Accedi ad alcune proprietà delle informazioni e visualizzale sulla console
Questi passaggi descrivono il processo per visualizzare i metadati PDF utilizzando Python. Innanzitutto, è necessario caricare il file PDF di destinazione e quindi accedere alla proprietà DocumentInfo denominata Info nella classe Document. Questo oggetto ha tutti i metadati nel PDF come creatore, fuso orario di modifica, produttore, data di creazione e data di modifica.
Codice per ottenere metadati PDF utilizzando Python
Questo codice mostra semplicemente la procedura per recuperare i metadati PDF usando Python. Si accede all’oggetto della classe DocumentInfo dal documento caricato che contiene una serie di informazioni sui metadati come il contrassegno intrappolato, il titolo, l’oggetto, le parole chiave del documento e l’autore. Se si desidera aggiungere queste proprietà, è possibile utilizzare il metodo DocumentInfo.add(), utilizzare il metodo clear() per cancellare i metadati e utilizzare il metodo remove() per rimuovere solo i metadati specificati.
Questo articolo ha descritto il processo per recuperare i metadati dal PDF. Se vuoi imparare il processo per leggere i contenuti PDF, fai riferimento all’articolo su come leggere il contenuto PDF in Python.