Como ler metadados PDF usando Python

Este tutorial rápido explica como ler metadados PDF usando Python. Ele contém informações detalhadas para definir o ambiente de desenvolvimento do aplicativo, um procedimento passo a passo e um código de amostra executável para extração de metadados de PDF usando Python. Você aprenderá como é fácil escrever o aplicativo e acessar as informações de metadados do PDF usando pouquíssimas chamadas de API sem instalar nenhuma ferramenta de terceiros em qualquer um dos ambientes compatíveis com Python.

Etapas para ler metadados de PDF usando Python

  1. Estabeleça o ambiente para use Aspose.PDF para Python via .NET para ler metadados
  2. Carregue o arquivo PDF de origem usando o objeto de classe Document para buscar metadados
  3. Obtenha acesso ao objeto de classe DocumentInfo que contém os metadados do PDF
  4. Acesse algumas propriedades de informações e exiba-as no console

Estas etapas descrevem o processo para exibir metadados PDF usando Python. Primeiro, você precisa carregar o arquivo PDF de destino e, em seguida, acessar a propriedade DocumentInfo chamada ‘Info’ na classe Document. Este objeto tem todos os metadados no PDF, como criador, fuso horário de modificação, produtor, data de criação e data de modificação.

Código para obter metadados de PDF usando Python

Este código simplesmente demonstra o procedimento para buscar metadados PDF usando Python. O objeto de classe DocumentInfo é acessado a partir do documento carregado que possui várias informações de metadados, como o sinalizador capturado, título, assunto, palavras-chave do documento e autor. Se quiser adicionar essas propriedades, você pode usar o método DocumentInfo.add(), usar o método clear() para limpar os metadados e usar o método remove() para remover apenas os metadados especificados.

Este artigo descreveu o processo para recuperar metadados do PDF. Se você quiser aprender o processo de leitura do conteúdo do PDF, consulte o artigo em como ler conteúdo PDF em Python.

 Português