Como localizar e substituir texto em PDF usando Python

Este tutorial rápido orienta sobre como localizar e substituir texto em PDF usando Python. Ele contém informações sobre como configurar o IDE, um processo detalhado passo a passo e um código de amostra executável para localizar e substituir palavras em pdf usando Python. Você também aprenderá as opções para pesquisar e substituir texto em todas as páginas de um PDF ou em uma página específica de acordo com os requisitos do aplicativo.

Etapas para localizar e substituir em PDF usando Python

Defina o ambiente como use Aspose.PDF para Python via .NET para substituir o texto
Carregue o arquivo PDF de destino usando o objeto de classe Document onde os dados devem ser pesquisados e substituídos
Defina o texto a ser pesquisado usando o objeto de classe TextFragmentAbsorber
Aplique o TextAbsorber para todas as páginas no PDF usando o método Document.pages.accept()
Obtenha acesso à coleção de todos os itens pesquisados no PDF por meio da propriedade TextFragmentAbsorber.text_fragments
Percorra todos os fragmentos de texto pesquisados e defina novos valores de acordo com seus requisitos
Salve o arquivo PDF atualizado no disco com o texto atualizado

Estas etapas resumem o processo para localizar e substituir tudo em PDF usando Python. Um objeto TextFragmentAbsorber é declarado fornecendo uma string a ser pesquisada e, em seguida, o método Document.pages.accept() é chamado para analisar todas as páginas no PDF e coletar os fragmentos de texto que contêm a palavra de destino. Uma vez que a coleção de palavras encontradas esteja pronta, agora você pode substituir todos ou fragmentos selecionados pelas novas palavras de acordo com suas necessidades.

Código para localizar e substituir texto em PDF usando Python

 import aspose.pdf as pdf
 # Load License
 license = pdf.License()
 license.set_license("Aspose.Total.lic")
 # Open the PDF document
 inputPDFFile = pdf.Document("input.pdf")
 # Instantiate a TextFragmentAbsorber object
 txtAbsorber = pdf.text.TextFragmentAbsorber("my_data")
 # Search text
 inputPDFFile.pages.accept(txtAbsorber)
 # Get reference to the found list
 textFragmentCollection = txtAbsorber.text_fragments
 # Parse all the searched text fragments
 for txtFragment in textFragmentCollection:
     txtFragment.text = "MY_DATA"
 # Save the output PDF
 inputPDFFile.save("output.pdf")
 print("Text found and replaced successfully")

view raw How to Find and Replace Text in PDF using Python.py hosted with ❤ by GitHub

Este código demonstra o processo para implementar o recurso de Pesquisa de PDF e substituição de texto usando Python. Este código usou o método Document.pages.accept() para pesquisar texto em todo o PDF. No entanto, se você deseja pesquisar e substituir o texto apenas em uma página específica, pode selecionar a página fornecendo o índice da página na coleção Document.pages e, em seguida, chame o método Page.accept(). Você também pode usar o objeto de classe TextSearchOptions como um segundo argumento ao instanciar o objeto TextFragmentAbsorber para personalizar a operação de pesquisa.

Este artigo nos ensinou a localizar e substituir texto em um PDF. Se você quiser aprender o processo para localizar e destacar um texto em um PDF, consulte o artigo em como destacar em PDF usando Python.

Aspose Base de conhecimento

Encontre respostas da API

Como localizar e substituir texto em PDF usando Python

Etapas para localizar e substituir em PDF usando Python

Código para localizar e substituir texto em PDF usando Python