Jak číst metadata PDF pomocí Pythonu

Tento rychlý tutoriál vysvětluje, jak číst metadata PDF pomocí Pythonu. Obsahuje podrobné informace pro nastavení prostředí pro vývoj aplikace, postupný postup a spustitelný ukázkový kód pro extrahování metadat z PDF pomocí Pythonu. Dozvíte se, jak snadné je napsat aplikaci a získat přístup k informacím metadat z PDF pomocí velmi malého počtu volání API bez instalace jakéhokoli nástroje třetí strany v jakémkoli prostředí podporovaném Pythonem.

Kroky ke čtení metadat PDF pomocí Pythonu

  1. Vytvořte prostředí pro použijte Aspose.PDF pro Python přes .NET pro čtení metadat
  2. Načtěte zdrojový soubor PDF pomocí objektu třídy Document a načtěte metadata
  3. Získejte přístup k objektu třídy DocumentInfo obsahujícímu metadata PDF
  4. Získejte přístup k několika vlastnostem informací a zobrazte je na konzole

Tyto kroky popisují proces zobrazení metadat PDF pomocí Pythonu. Nejprve musíte načíst cílový soubor PDF a poté přistupovat k vlastnosti DocumentInfo s názvem ‘Info’ ve třídě Document. Tento objekt má všechna metadata v PDF, jako je tvůrce, časové pásmo úprav, producent, datum vytvoření a datum úpravy.

Kód pro získání metadat PDF pomocí Pythonu

Tento kód jednoduše ukazuje postup pro načtení PDF metadat pomocí Pythonu. K objektu třídy DocumentInfo se přistupuje z načteného dokumentu, který má řadu informací o metadatech, jako je zachycený příznak, název, předmět, klíčová slova dokumentu a autor. Pokud chcete přidat tyto vlastnosti, můžete použít metodu DocumentInfo.add(), pomocí metody clear() vymazat metadata a pomocí metody remove() odstranit pouze určená metadata.

Tento článek popsal proces načítání metadat z PDF. Pokud se chcete naučit proces čtení obsahu PDF, přečtěte si článek na jak číst obsah PDF v Pythonu.

 Čeština