Как выделить в PDF с помощью Python

В этом кратком руководстве рассказывается, как выделить в PDF с помощью Python. Он содержит все детали для создания среды, список шагов для разработки приложения и исполняемый пример кода для разработки подсветчика PDF с использованием Python. Вы изучите процесс с помощью систематического подхода к выполнению этой задачи, а также варианты настройки выделенного текста в соответствии с вашими требованиями.

Шаги по выделению текста в PDF с помощью Python

  1. Настройте среду на использовать Aspose.PDF для Python через .NET, чтобы выделить текст
  2. Загрузите целевой PDF-файл, в котором текст должен быть выделен, с помощью объекта класса Document
  3. Поиск текста на целевой странице с помощью класса TextFragmentAbsorber
  4. Создайте аннотацию выделения, используя класс HighlightAnnotation
  5. Укажите цвет выделения и другие свойства перед его применением.
  6. Сохраните полученный PDF-файл с выделенным текстом.

Эти шаги помогут как выделить файл PDF с помощью Python. Вначале загружается PDF-файл, и объект класса TextFragmentAbsorber используется для указания искомого текста, а затем для поиска всех экземпляров целевого текста на выбранной странице. На следующих шагах HighlightAnnotation используется для определения аннотации выделения для выбранной страницы и конкретного экземпляра из набора строк, найденных на странице, а также для настройки цвета аннотации и других свойств, если это необходимо.

Код для выделения PDF-документа с использованием Python

import aspose.pdf as pdf
# Load the license
license = pdf.License()
license.set_license("Aspose.Total.lic")
# Load the PDF
doc = pdf.Document("sample_input.pdf")
# Search target text to highlight
textFragmentAbsorber = pdf.text.TextFragmentAbsorber("PowerPoint")
doc.pages[1].accept(textFragmentAbsorber)
# Create a highlight annotation
ha = pdf.annotations.HighlightAnnotation(doc.pages[1], textFragmentAbsorber.text_fragments[1].rectangle)
# Specify highlight color
ha.color = pdf.Color.yellow
# Add annotation to highlight text in PDF
doc.pages[1].annotations.add(ha,True)
# Save the document
doc.save("PDF_with_Highlighted_Text.pdf")
print("Text searched and highlighted successfully")

Этот код демонстрирует как выделить текст в PDF с помощью Python. Он использует конструктор TextFragmentAbsorber, чтобы указать строку, которую нужно искать на целевой странице, а затем метод accept() используется для создания коллекции экземпляров этой строки на целевой странице. Точно так же конструктор HighlightAnnotation используется для указания страницы и области, где должна отображаться выделенная аннотация, с помощью прямоугольника вокруг целевой строки.

Эта статья научила нас как выделить документ PDF с помощью Python. Если вы хотите узнать, как вычеркнуть какой-либо текст в PDF-файле, обратитесь к статье как вычеркнуть текст в Adobe PDF с помощью Python.

 Русский