วิธีอ่านข้อมูลเมตา PDF โดยใช้ Python

บทช่วยสอนฉบับย่อนี้จะอธิบาย วิธีอ่านข้อมูลเมตาของ PDF โดยใช้ Python ประกอบด้วยข้อมูลโดยละเอียดในการตั้งค่าสภาพแวดล้อมสำหรับการพัฒนาแอปพลิเคชัน ขั้นตอนแบบเป็นขั้นตอน และโค้ดตัวอย่างที่เรียกใช้ได้สำหรับ การแยกข้อมูลเมตาจาก PDF โดยใช้ Python คุณจะได้เรียนรู้ว่าการเขียนแอปพลิเคชันและเข้าถึงข้อมูลเมตาจาก PDF นั้นง่ายเพียงใดโดยใช้การเรียก API เพียงไม่กี่ครั้งโดยไม่ต้องติดตั้งเครื่องมือของบุคคลที่สามในสภาพแวดล้อมที่รองรับ Python

ขั้นตอนในการอ่านข้อมูลเมตา PDF โดยใช้ Python

  1. สร้างสภาพแวดล้อมเป็น ใช้ Aspose.PDF สำหรับ Python ผ่าน .NET เพื่ออ่านข้อมูลเมตา
  2. โหลดไฟล์ PDF ต้นฉบับโดยใช้วัตถุคลาส Document เพื่อดึงข้อมูลเมตา
  3. เข้าถึงวัตถุคลาส DocumentInfo ที่มีข้อมูลเมตา PDF
  4. เข้าถึงคุณสมบัติข้อมูลบางอย่างและแสดงบนคอนโซล

ขั้นตอนเหล่านี้อธิบายขั้นตอนการ ดูข้อมูลเมตา PDF โดยใช้ Python ก่อนอื่น คุณต้องโหลดไฟล์ PDF เป้าหมาย จากนั้นเข้าถึงคุณสมบัติ DocumentInfo ที่ชื่อว่า ‘Info’ ในคลาส Document วัตถุนี้มีเมทาดาทาทั้งหมดใน PDF เช่น ผู้สร้าง เขตเวลาแก้ไข ผู้ผลิต วันที่สร้าง และวันที่แก้ไข

รหัสเพื่อรับข้อมูลเมตา PDF โดยใช้ Python

โค้ดนี้แสดงขั้นตอนการดึงข้อมูลเมตา PDF โดยใช้ Python วัตถุคลาส DocumentInfo เข้าถึงได้จากเอกสารที่โหลดซึ่งมีข้อมูลเมตาดาต้าจำนวนหนึ่ง เช่น แฟล็กติดอยู่ ชื่อเรื่อง หัวเรื่อง คำสำคัญของเอกสาร และผู้แต่ง หากคุณต้องการเพิ่มคุณสมบัติเหล่านี้ คุณอาจใช้เมธอด DocumentInfo.add() ใช้เมธอด clear() เพื่อล้างข้อมูลเมตา และใช้เมธอด remove() เพื่อลบข้อมูลเมตาที่ระบุเท่านั้น

บทความนี้อธิบายกระบวนการดึงข้อมูลเมตาจาก PDF หากคุณต้องการเรียนรู้ขั้นตอนการอ่านเนื้อหา PDF โปรดดูบทความใน วิธีอ่านเนื้อหา PDF ใน Python

 ไทย