บทแนะนำฉบับย่อนี้จะแนะนำคุณเกี่ยวกับ วิธีอ่านเนื้อหา PDF ใน Python แนะนำทรัพยากรทั้งหมด คลาสที่จำเป็น และวิธีการที่จะใช้ในแอปพลิเคชัน นอกจากนี้ยังมีโค้ดตัวอย่างที่รันได้สำหรับ อ่าน pdf โดยใช้ python ด้วยความช่วยเหลือของโค้ดเพียงไม่กี่บรรทัดโดยไม่ต้องใช้เครื่องมือของบุคคลที่สาม
ขั้นตอนในการอ่าน PDF ด้วย Python
- ตั้งค่า IDE เป็น ใช้ Aspose.PDF สำหรับ Python ผ่าน .NET เพื่ออ่านข้อความ PDF
- โหลดไฟล์ PDF ต้นฉบับโดยใช้อ็อบเจ็กต์ Document ที่จะอ่านข้อมูล
- สร้างอินสแตนซ์ของวัตถุ TextAbsorber เพื่อดึงข้อความจาก PDF
- เรียกใช้เมธอดยอมรับ () เพื่ออ่านข้อความทั้งหมดในไฟล์ PDF ที่โหลด
- แสดงข้อความที่แยกออกมาโดยใช้คุณสมบัติ Text ของวัตถุ TextAbsorber
ขั้นตอนเหล่านี้สรุปกระบวนการในการ อ่านไฟล์ PDF ใน Python โดยแนะนำคลาส Document เพื่อโหลดไฟล์ PDF, ออบเจ็กต์คลาส TextAbsorber เพื่อดึงข้อความจาก PDF และเมธอดยอมรับ () ที่เติมคุณสมบัติข้อความของ วัตถุ TextAbsorber เมื่อเรียกใช้เมธอดยอมรับ () ข้อมูลสตริงในคุณสมบัติข้อความสามารถพิมพ์หรือแยกวิเคราะห์สำหรับการประมวลผลเพิ่มเติม
รหัสสำหรับอ่านไฟล์ PDF ใน Python
import aspose.pdf as pdf | |
# Load License | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load the PDF file | |
pdfFile = pdf.Document("ImageAndText.pdf") | |
# Initialize TextAbsorber object | |
textAbsorber = pdf.text.TextAbsorber() | |
# Call Page.Accept() method to fetch text | |
pdfFile.pages.accept(textAbsorber) | |
# Display the text | |
print(textAbsorber.text) | |
print("Process completed") |
ส่วนโค้ดด้านบนแสดงขั้นตอนการ แยกข้อมูลจากไฟล์ PDF โดยใช้ Python คลาส TextAbsorber รองรับ TextFormattingMode เพื่อแยกข้อความในโหมด Pure, Raw, Flattened หรือโหมดประหยัดหน่วยความจำ ยิ่งกว่านั้น คลาส TextAbsorber จะส่งคืนรายการข้อผิดพลาดขณะดึงข้อมูลจาก PDF และรองรับการกำหนดสี่เหลี่ยมภายในที่ดึงข้อความจากหน้า Pdf
บทความนี้สอนให้เรา อ่าน PDF ใน Python หากคุณต้องการเรียนรู้ขั้นตอนการอ่านบุ๊กมาร์กจาก PDF โปรดดูบทความใน วิธีอ่านบุ๊กมาร์กใน Pdf โดยใช้ Python