Tento rychlý tutoriál vysvětluje, jak číst metadata PDF pomocí Pythonu. Obsahuje podrobné informace pro nastavení prostředí pro vývoj aplikace, postupný postup a spustitelný ukázkový kód pro extrahování metadat z PDF pomocí Pythonu. Dozvíte se, jak snadné je napsat aplikaci a získat přístup k informacím metadat z PDF pomocí velmi malého počtu volání API bez instalace jakéhokoli nástroje třetí strany v jakémkoli prostředí podporovaném Pythonem.
Kroky ke čtení metadat PDF pomocí Pythonu
- Vytvořte prostředí pro použijte Aspose.PDF pro Python přes .NET pro čtení metadat
- Načtěte zdrojový soubor PDF pomocí objektu třídy Document a načtěte metadata
- Získejte přístup k objektu třídy DocumentInfo obsahujícímu metadata PDF
- Získejte přístup k několika vlastnostem informací a zobrazte je na konzole
Tyto kroky popisují proces zobrazení metadat PDF pomocí Pythonu. Nejprve musíte načíst cílový soubor PDF a poté přistupovat k vlastnosti DocumentInfo s názvem ‘Info’ ve třídě Document. Tento objekt má všechna metadata v PDF, jako je tvůrce, časové pásmo úprav, producent, datum vytvoření a datum úpravy.
Kód pro získání metadat PDF pomocí Pythonu
Tento kód jednoduše ukazuje postup pro načtení PDF metadat pomocí Pythonu. K objektu třídy DocumentInfo se přistupuje z načteného dokumentu, který má řadu informací o metadatech, jako je zachycený příznak, název, předmět, klíčová slova dokumentu a autor. Pokud chcete přidat tyto vlastnosti, můžete použít metodu DocumentInfo.add(), pomocí metody clear() vymazat metadata a pomocí metody remove() odstranit pouze určená metadata.
Tento článek popsal proces načítání metadat z PDF. Pokud se chcete naučit proces čtení obsahu PDF, přečtěte si článek na jak číst obsah PDF v Pythonu.