Jak czytać metadane PDF za pomocą Pythona

Ten krótki samouczek wyjaśnia jak czytać metadane PDF za pomocą Pythona. Zawiera szczegółowe informacje dotyczące ustawiania środowiska do tworzenia aplikacji, procedurę krokową oraz przykładowy kod, który można uruchomić w celu wyodrębniania metadanych z pliku PDF przy użyciu języka Python. Dowiesz się, jak łatwo jest napisać aplikację i uzyskać dostęp do informacji o metadanych z PDF przy użyciu bardzo niewielu wywołań API bez instalowania jakiegokolwiek narzędzia innej firmy w żadnym ze środowisk obsługiwanych przez Pythona.

Kroki, aby odczytać metadane PDF za pomocą Pythona

  1. Stwórz środowisko użyj Aspose.PDF dla Pythona przez .NET do odczytu metadanych
  2. Załaduj źródłowy plik PDF za pomocą obiektu klasy Document, aby pobrać metadane
  3. Uzyskaj dostęp do obiektu klasy DocumentInfo zawierającego metadane PDF
  4. Uzyskaj dostęp do kilku właściwości informacyjnych i wyświetl je na konsoli

Te kroki opisują proces wyświetlania metadanych PDF za pomocą Pythona. Najpierw musisz załadować docelowy plik PDF, a następnie uzyskać dostęp do właściwości DocumentInfo o nazwie Info” w klasie Document. Ten obiekt zawiera wszystkie metadane w pliku PDF, takie jak twórca, strefa czasowa modyfikacji, producent, data utworzenia i data modyfikacji.

Kod do pobierania metadanych PDF za pomocą Pythona

Ten kod po prostu demonstruje procedurę pobierania metadanych PDF za pomocą Pythona. Dostęp do obiektu klasy DocumentInfo uzyskuje się z załadowanego dokumentu, który zawiera szereg informacji o metadanych, takich jak uwięziona flaga, tytuł, temat, słowa kluczowe dokumentu i autor. Jeśli chcesz dodać te właściwości, możesz użyć metody DocumentInfo.add(), metody clear() do wyczyszczenia metadanych i metody remove() do usunięcia tylko określonych metadanych.

W tym artykule opisano proces pobierania metadanych z pliku PDF. Jeśli chcesz poznać proces odczytywania zawartości pliku PDF, zapoznaj się z artykułem na stronie jak czytać zawartość PDF w Pythonie.

 Polski