Ten krótki samouczek wyjaśnia jak czytać metadane PDF za pomocą Pythona. Zawiera szczegółowe informacje dotyczące ustawiania środowiska do tworzenia aplikacji, procedurę krokową oraz przykładowy kod, który można uruchomić w celu wyodrębniania metadanych z pliku PDF przy użyciu języka Python. Dowiesz się, jak łatwo jest napisać aplikację i uzyskać dostęp do informacji o metadanych z PDF przy użyciu bardzo niewielu wywołań API bez instalowania jakiegokolwiek narzędzia innej firmy w żadnym ze środowisk obsługiwanych przez Pythona.
Kroki, aby odczytać metadane PDF za pomocą Pythona
- Stwórz środowisko użyj Aspose.PDF dla Pythona przez .NET do odczytu metadanych
- Załaduj źródłowy plik PDF za pomocą obiektu klasy Document, aby pobrać metadane
- Uzyskaj dostęp do obiektu klasy DocumentInfo zawierającego metadane PDF
- Uzyskaj dostęp do kilku właściwości informacyjnych i wyświetl je na konsoli
Te kroki opisują proces wyświetlania metadanych PDF za pomocą Pythona. Najpierw musisz załadować docelowy plik PDF, a następnie uzyskać dostęp do właściwości DocumentInfo o nazwie Info” w klasie Document. Ten obiekt zawiera wszystkie metadane w pliku PDF, takie jak twórca, strefa czasowa modyfikacji, producent, data utworzenia i data modyfikacji.
Kod do pobierania metadanych PDF za pomocą Pythona
Ten kod po prostu demonstruje procedurę pobierania metadanych PDF za pomocą Pythona. Dostęp do obiektu klasy DocumentInfo uzyskuje się z załadowanego dokumentu, który zawiera szereg informacji o metadanych, takich jak uwięziona flaga, tytuł, temat, słowa kluczowe dokumentu i autor. Jeśli chcesz dodać te właściwości, możesz użyć metody DocumentInfo.add(), metody clear() do wyczyszczenia metadanych i metody remove() do usunięcia tylko określonych metadanych.
W tym artykule opisano proces pobierania metadanych z pliku PDF. Jeśli chcesz poznać proces odczytywania zawartości pliku PDF, zapoznaj się z artykułem na stronie jak czytać zawartość PDF w Pythonie.