บทช่วยสอนสั้นๆ นี้อธิบายขั้นตอนของ วิธีอ่านตาราง PDF ใน Python นำเสนอข้อมูลพื้นฐานทั้งหมดเพื่อตั้งค่าสภาพแวดล้อมการพัฒนา ลำดับขั้นตอนในการเขียนแอปพลิเคชัน และโค้ดตัวอย่างที่รันได้เพื่อ แยกตารางจาก PDF ใน Python คุณจะได้รับคำแนะนำในการเข้าถึงแต่ละเซลล์ของตาราง จากนั้นดึงข้อมูลทั้งหมดในนั้น
ขั้นตอนในการแยกข้อมูลตารางจาก PDF โดยใช้ Python
- ตั้งค่าสภาพแวดล้อมเป็น ใช้ Aspose.PDF สำหรับ Python ผ่าน .NET เพื่ออ่านตาราง
- โหลดไฟล์ PDF ต้นฉบับโดยใช้คลาส Document ที่มีตาราง
- สร้างอินสแตนซ์ของวัตถุคลาส TableAbsorber เพื่ออ่านตารางจากไฟล์ PDF ที่โหลด
- เลือกหน้าและแยกวิเคราะห์ตารางทั้งหมดในนั้น
- เข้าถึงตารางแรกและแยกวิเคราะห์ตามแถวและคอลัมน์เพื่อดึงอินสแตนซ์ TextFragment ทั้งหมดในเซลล์
- แยกส่วนข้อความทั้งหมดและแสดงข้อความในแต่ละส่วน
ขั้นตอนเหล่านี้อธิบายขั้นตอนการ อ่านตาราง PDF ใน Python กระบวนการเริ่มต้นด้วยการโหลดไฟล์ PDF จากนั้นสร้างวัตถุ TableAbsorber ที่มีวิธีการอ่านตารางจากไฟล์ PDF เมื่อแยกวิเคราะห์ตารางทั้งหมดในหน้าใดหน้าหนึ่งแล้ว ตารางแรกจะเข้าถึงได้จากคอลเลกชั่น จากนั้นแต่ละแถวและคอลัมน์จะถูกแยกวิเคราะห์เพื่อรับคอลเลกชั่นของเศษข้อความในนั้นเพื่อดึงข้อมูล
รหัสเพื่อแยกตารางจาก PDF โดยใช้ Python
โค้ดด้านบนแสดงให้เห็นว่าการใช้ python อ่านตาราง pdf และดึงข้อมูลมาประมวลผลอย่างไร เมื่อเราเรียกใช้เมธอด visit() ในคลาส TableAbsorber เมธอดนี้จะเติมอาร์เรย์ table_list ที่ใช้ในการเข้าถึงแต่ละตาราง แต่ละตารางในคอลเล็กชันตารางมีคุณสมบัติ row_list ที่มีคุณสมบัติ cell_list ให้สิทธิ์เข้าถึงคอลเล็กชันคอลัมน์ และสุดท้ายคุณเข้าถึงคุณสมบัติ text_fragments เพื่อรับคอลเล็กชันข้อมูลในเซลล์หนึ่งๆ
บทความนี้สอนเราว่าการ แยกตารางจาก PDF Python สามารถใช้งานได้ง่าย หากคุณต้องการเรียนรู้ขั้นตอนการอ่านบุ๊กมาร์กในรูปแบบ PDF โปรดดูบทความใน วิธีอ่านบุ๊กมาร์กใน PDF โดยใช้ Python