Denna snabba handledning förklarar hur man läser PDF-metadata med Python. Den innehåller detaljerad information för att ställa in miljön för utveckling av applikationen, en stegvis procedur och en körbar exempelkod för att extrahera metadata från PDF med Python. Du kommer att lära dig hur enkelt det är att skriva applikationen och komma åt metadatainformationen från PDF med väldigt få API-anrop utan att installera något tredjepartsverktyg i någon av de Python-stödda miljöerna.
Steg för att läsa PDF-metadata med Python
- Etablera miljön för att använd Aspose.PDF för Python via .NET ska läsa metadata
- Ladda käll-PDF-filen med klassobjektet Document för att hämta metadata
- Få åtkomst till klassobjektet DocumentInfo som innehåller PDF-metadata
- Få tillgång till några informationsegenskaper och visa dem på konsolen
Dessa steg beskriver processen för att visa PDF-metadata med Python. Först måste du ladda mål-PDF-filen och sedan komma åt DocumentInfo-egenskapen med namnet ‘Info’ i klassen Document. Det här objektet har all metadata i PDF-filen som skapare, ändringstidszon, producent, skapelsedatum och ändringsdatum.
Kod för att hämta PDF-metadata med Python
Den här koden visar helt enkelt proceduren för att hämta PDF-metadata med Python. Klassobjektet DocumentInfo nås från det inlästa dokumentet som har ett antal metadatainformation som fångad flagga, titel, ämne, nyckelord för dokumentet och författare. Om du vill lägga till dessa egenskaper kan du använda metoden DocumentInfo.add(), använd metoden clear() för att rensa metadata och använd metoden remove() för att endast ta bort specificerad metadata.
Den här artikeln har beskrivit processen för att hämta metadata från PDF:en. Om du vill lära dig processen för att läsa PDF-innehållet, se artikeln om hur man läser PDF-innehåll i Python.