В этом кратком руководстве рассказывается, как выделить в PDF с помощью Python. Он содержит все детали для создания среды, список шагов для разработки приложения и исполняемый пример кода для разработки подсветчика PDF с использованием Python. Вы изучите процесс с помощью систематического подхода к выполнению этой задачи, а также варианты настройки выделенного текста в соответствии с вашими требованиями.
Шаги по выделению текста в PDF с помощью Python
- Настройте среду на использовать Aspose.PDF для Python через .NET, чтобы выделить текст
- Загрузите целевой PDF-файл, в котором текст должен быть выделен, с помощью объекта класса Document
- Поиск текста на целевой странице с помощью класса TextFragmentAbsorber
- Создайте аннотацию выделения, используя класс HighlightAnnotation
- Укажите цвет выделения и другие свойства перед его применением.
- Сохраните полученный PDF-файл с выделенным текстом.
Эти шаги помогут как выделить файл PDF с помощью Python. Вначале загружается PDF-файл, и объект класса TextFragmentAbsorber используется для указания искомого текста, а затем для поиска всех экземпляров целевого текста на выбранной странице. На следующих шагах HighlightAnnotation используется для определения аннотации выделения для выбранной страницы и конкретного экземпляра из набора строк, найденных на странице, а также для настройки цвета аннотации и других свойств, если это необходимо.
Код для выделения PDF-документа с использованием Python
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load the PDF | |
doc = pdf.Document("sample_input.pdf") | |
# Search target text to highlight | |
textFragmentAbsorber = pdf.text.TextFragmentAbsorber("PowerPoint") | |
doc.pages[1].accept(textFragmentAbsorber) | |
# Create a highlight annotation | |
ha = pdf.annotations.HighlightAnnotation(doc.pages[1], textFragmentAbsorber.text_fragments[1].rectangle) | |
# Specify highlight color | |
ha.color = pdf.Color.yellow | |
# Add annotation to highlight text in PDF | |
doc.pages[1].annotations.add(ha,True) | |
# Save the document | |
doc.save("PDF_with_Highlighted_Text.pdf") | |
print("Text searched and highlighted successfully") |
Этот код демонстрирует как выделить текст в PDF с помощью Python. Он использует конструктор TextFragmentAbsorber, чтобы указать строку, которую нужно искать на целевой странице, а затем метод accept() используется для создания коллекции экземпляров этой строки на целевой странице. Точно так же конструктор HighlightAnnotation используется для указания страницы и области, где должна отображаться выделенная аннотация, с помощью прямоугольника вокруг целевой строки.
Эта статья научила нас как выделить документ PDF с помощью Python. Если вы хотите узнать, как вычеркнуть какой-либо текст в PDF-файле, обратитесь к статье как вычеркнуть текст в Adobe PDF с помощью Python.