Questo breve tutorial guida su come trovare e sostituire il testo in PDF usando Python. Contiene informazioni sulla configurazione dell’IDE, un processo dettagliato per fasi e un codice di esempio eseguibile per trovare e sostituire la parola in pdf utilizzando Python. Imparerai anche le opzioni per cercare e sostituire il testo su tutte le pagine di un PDF o su una pagina particolare secondo i requisiti dell’applicazione.
Passaggi per trovare e sostituire in PDF usando Python
- Imposta l’ambiente su usa Aspose.PDF per Python tramite .NET per sostituire il testo
- Carica il file PDF di destinazione utilizzando l’oggetto di classe Document in cui i dati devono essere cercati e sostituiti
- Definisci il testo che deve essere cercato utilizzando l’oggetto di classe TextFragmentAbsorber
- Applicare il TextAbsorber per tutte le pagine del PDF utilizzando il metodo Document.pages.accept()
- Ottieni l’accesso alla raccolta di tutti gli elementi cercati nel PDF tramite la proprietà TextFragmentAbsorber.text_fragments
- Scorri tutti i frammenti di testo cercati e imposta nuovi valori in base alle tue esigenze
- Salva il file PDF aggiornato sul disco con il testo aggiornato
Questi passaggi riassumono il processo per trovare e sostituire tutto in PDF utilizzando Python. Un oggetto TextFragmentAbsorber viene dichiarato fornendo una stringa che deve essere cercata e quindi viene chiamato il metodo Document.pages.accept() per analizzare tutte le pagine nel PDF e raccogliere i frammenti di testo contenenti la parola di destinazione. Una volta che la raccolta delle parole trovate è pronta, ora puoi sostituire tutti o frammenti selezionati con le nuove parole secondo le tue esigenze.
Codice per trovare e sostituire testo in PDF usando Python
import aspose.pdf as pdf | |
# Load License | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Open the PDF document | |
inputPDFFile = pdf.Document("input.pdf") | |
# Instantiate a TextFragmentAbsorber object | |
txtAbsorber = pdf.text.TextFragmentAbsorber("my_data") | |
# Search text | |
inputPDFFile.pages.accept(txtAbsorber) | |
# Get reference to the found list | |
textFragmentCollection = txtAbsorber.text_fragments | |
# Parse all the searched text fragments | |
for txtFragment in textFragmentCollection: | |
txtFragment.text = "MY_DATA" | |
# Save the output PDF | |
inputPDFFile.save("output.pdf") | |
print("Text found and replaced successfully") |
Questo codice dimostra il processo per implementare la funzionalità di ricerca PDF e sostituzione di testo utilizzando Python. Questo codice ha utilizzato il metodo Document.pages.accept() per cercare il testo nell’intero PDF, tuttavia se si desidera cercare e sostituire il testo solo su una determinata pagina, è possibile selezionare la pagina fornendo l’indice della pagina nella raccolta Document.pages e quindi chiamare il metodo Page.accept(). È inoltre possibile utilizzare l’oggetto della classe TextSearchOptions come secondo argomento durante la creazione di un’istanza dell’oggetto TextFragmentAbsorber per personalizzare l’operazione di ricerca.
Questo articolo ci ha insegnato a trovare e sostituire il testo in un PDF. Se vuoi imparare il processo per trovare ed evidenziare un testo in un PDF, fai riferimento all’articolo su come evidenziare in PDF usando Python.