Como localizar e substituir texto em PDF usando Python

Este tutorial rápido orienta sobre como localizar e substituir texto em PDF usando Python. Ele contém informações sobre como configurar o IDE, um processo detalhado passo a passo e um código de amostra executável para localizar e substituir palavras em pdf usando Python. Você também aprenderá as opções para pesquisar e substituir texto em todas as páginas de um PDF ou em uma página específica de acordo com os requisitos do aplicativo.

Etapas para localizar e substituir em PDF usando Python

  1. Defina o ambiente como use Aspose.PDF para Python via .NET para substituir o texto
  2. Carregue o arquivo PDF de destino usando o objeto de classe Document onde os dados devem ser pesquisados e substituídos
  3. Defina o texto a ser pesquisado usando o objeto de classe TextFragmentAbsorber
  4. Aplique o TextAbsorber para todas as páginas no PDF usando o método Document.pages.accept()
  5. Obtenha acesso à coleção de todos os itens pesquisados no PDF por meio da propriedade TextFragmentAbsorber.text_fragments
  6. Percorra todos os fragmentos de texto pesquisados e defina novos valores de acordo com seus requisitos
  7. Salve o arquivo PDF atualizado no disco com o texto atualizado

Estas etapas resumem o processo para localizar e substituir tudo em PDF usando Python. Um objeto TextFragmentAbsorber é declarado fornecendo uma string a ser pesquisada e, em seguida, o método Document.pages.accept() é chamado para analisar todas as páginas no PDF e coletar os fragmentos de texto que contêm a palavra de destino. Uma vez que a coleção de palavras encontradas esteja pronta, agora você pode substituir todos ou fragmentos selecionados pelas novas palavras de acordo com suas necessidades.

Código para localizar e substituir texto em PDF usando Python

Este código demonstra o processo para implementar o recurso de Pesquisa de PDF e substituição de texto usando Python. Este código usou o método Document.pages.accept() para pesquisar texto em todo o PDF. No entanto, se você deseja pesquisar e substituir o texto apenas em uma página específica, pode selecionar a página fornecendo o índice da página na coleção Document.pages e, em seguida, chame o método Page.accept(). Você também pode usar o objeto de classe TextSearchOptions como um segundo argumento ao instanciar o objeto TextFragmentAbsorber para personalizar a operação de pesquisa.

Este artigo nos ensinou a localizar e substituir texto em um PDF. Se você quiser aprender o processo para localizar e destacar um texto em um PDF, consulte o artigo em como destacar em PDF usando Python.

 Português