Как получить изображения из PDF в Python

В этом разделе подробно рассказывается о том, как получить изображения из PDF-файла в Python с помощью шагов настройки и исполняемого примера кода. Предоставляется полный программный код, который можно использовать для разработки этого приложения, поскольку предоставляются все необходимые классы и методы, необходимые для получения изображений из PDF в Python в различных форматах, таких как PNG, JPEG и т. д. Вы также увидите различные варианты улучшения процесса путем настройки сгенерированных изображений после доступа к ним из файла PDF.

Шаги для получения PDF-изображений в Python

  1. Настройте IDE для использования Aspose.PDF для Python через .NET для извлечения изображений из PDF
  2. Доступ к исходному файлу PDF с изображениями внутри него с помощью объекта класса Document
  3. Доступ к определенному изображению внутри ресурсов страницы с помощью объекта класса XImage
  4. Создайте новый файловый поток, используя имя нужного изображения.
  5. Сохраните изображение в виде файла JPEG на диске

Эти шаги влекут за собой как получить изображение из PDF в Python, раскрывая пошаговый подход, где сначала мы открываем исходный файл PDF, а затем получаем доступ к определенной странице внутри PDF. Для каждой страницы PDF существует набор ресурсов, включая изображения, на которые можно ссылаться с помощью указателя. После обращения к требуемой ссылке на изображение с использованием экземпляра объекта класса XImage ее можно сохранить как изображение на диске с помощью экземпляра потока памяти.

Код для получения изображения из PDF в Python

import aspose.pdf as pdf
import aspose.pydrawing as drawing
# Set the source directory path
filePath = "C://Words//"
# Load the license in your application to get images PDF
pdfImageLicense = pdf.License()
pdfImageLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
#Load the PDF file to get the images
pdfDocImage = pdf.Document(filePath + "PdfWithImage.pdf")
#Get the desired image from the pages
xImage = pdfDocImage.pages[1].resources.images[1]
#Create a memory stream object to save image
with open(filePath+"output.jpg", "wb") as stream:
# Save the slide image as SVG on disk
xImage.save(stream, drawing.imaging.ImageFormat.jpeg)
print("Image saved from PDF")

В этом коде показана процедура получения изображения из PDF в Python путем доступа к нему в объект класса Document, а затем загрузки доступа к нужному изображению на определенной странице путем доступа к его списку ресурсов. Когда у нас есть доступ к нужному изображению, мы может переименовать его, а также внести изменения в ссылки в документе. Вы также можете получить доступ к различным свойствам, таким как имя, ширина и высота, чтобы отфильтровать изображения перед сохранением их в виде файла на диске.

Этот пример помог нам извлечь изображения из страницы PDF. Если вам интересно узнать о процессе добавления водяного знака в файл PDF, обратитесь к статье как добавить водяной знак в PDF на Python.

 Русский