Este tutorial rápido orienta sobre como localizar e substituir texto em PDF usando Python. Ele contém informações sobre como configurar o IDE, um processo detalhado passo a passo e um código de amostra executável para localizar e substituir palavras em pdf usando Python. Você também aprenderá as opções para pesquisar e substituir texto em todas as páginas de um PDF ou em uma página específica de acordo com os requisitos do aplicativo.
Etapas para localizar e substituir em PDF usando Python
- Defina o ambiente como use Aspose.PDF para Python via .NET para substituir o texto
- Carregue o arquivo PDF de destino usando o objeto de classe Document onde os dados devem ser pesquisados e substituídos
- Defina o texto a ser pesquisado usando o objeto de classe TextFragmentAbsorber
- Aplique o TextAbsorber para todas as páginas no PDF usando o método Document.pages.accept()
- Obtenha acesso à coleção de todos os itens pesquisados no PDF por meio da propriedade TextFragmentAbsorber.text_fragments
- Percorra todos os fragmentos de texto pesquisados e defina novos valores de acordo com seus requisitos
- Salve o arquivo PDF atualizado no disco com o texto atualizado
Estas etapas resumem o processo para localizar e substituir tudo em PDF usando Python. Um objeto TextFragmentAbsorber é declarado fornecendo uma string a ser pesquisada e, em seguida, o método Document.pages.accept() é chamado para analisar todas as páginas no PDF e coletar os fragmentos de texto que contêm a palavra de destino. Uma vez que a coleção de palavras encontradas esteja pronta, agora você pode substituir todos ou fragmentos selecionados pelas novas palavras de acordo com suas necessidades.
Código para localizar e substituir texto em PDF usando Python
import aspose.pdf as pdf | |
# Load License | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Open the PDF document | |
inputPDFFile = pdf.Document("input.pdf") | |
# Instantiate a TextFragmentAbsorber object | |
txtAbsorber = pdf.text.TextFragmentAbsorber("my_data") | |
# Search text | |
inputPDFFile.pages.accept(txtAbsorber) | |
# Get reference to the found list | |
textFragmentCollection = txtAbsorber.text_fragments | |
# Parse all the searched text fragments | |
for txtFragment in textFragmentCollection: | |
txtFragment.text = "MY_DATA" | |
# Save the output PDF | |
inputPDFFile.save("output.pdf") | |
print("Text found and replaced successfully") |
Este código demonstra o processo para implementar o recurso de Pesquisa de PDF e substituição de texto usando Python. Este código usou o método Document.pages.accept() para pesquisar texto em todo o PDF. No entanto, se você deseja pesquisar e substituir o texto apenas em uma página específica, pode selecionar a página fornecendo o índice da página na coleção Document.pages e, em seguida, chame o método Page.accept(). Você também pode usar o objeto de classe TextSearchOptions como um segundo argumento ao instanciar o objeto TextFragmentAbsorber para personalizar a operação de pesquisa.
Este artigo nos ensinou a localizar e substituir texto em um PDF. Se você quiser aprender o processo para localizar e destacar um texto em um PDF, consulte o artigo em como destacar em PDF usando Python.