บทช่วยสอนสั้นๆ นี้อธิบายขั้นตอนของ วิธีอ่านตาราง PDF ใน Python นำเสนอข้อมูลพื้นฐานทั้งหมดเพื่อตั้งค่าสภาพแวดล้อมการพัฒนา ลำดับขั้นตอนในการเขียนแอปพลิเคชัน และโค้ดตัวอย่างที่รันได้เพื่อ แยกตารางจาก PDF ใน Python คุณจะได้รับคำแนะนำในการเข้าถึงแต่ละเซลล์ของตาราง จากนั้นดึงข้อมูลทั้งหมดในนั้น
ขั้นตอนในการแยกข้อมูลตารางจาก PDF โดยใช้ Python
- ตั้งค่าสภาพแวดล้อมเป็น ใช้ Aspose.PDF สำหรับ Python ผ่าน .NET เพื่ออ่านตาราง
- โหลดไฟล์ PDF ต้นฉบับโดยใช้คลาส Document ที่มีตาราง
- สร้างอินสแตนซ์ของวัตถุคลาส TableAbsorber เพื่ออ่านตารางจากไฟล์ PDF ที่โหลด
- เลือกหน้าและแยกวิเคราะห์ตารางทั้งหมดในนั้น
- เข้าถึงตารางแรกและแยกวิเคราะห์ตามแถวและคอลัมน์เพื่อดึงอินสแตนซ์ TextFragment ทั้งหมดในเซลล์
- แยกส่วนข้อความทั้งหมดและแสดงข้อความในแต่ละส่วน
ขั้นตอนเหล่านี้อธิบายขั้นตอนการ อ่านตาราง PDF ใน Python กระบวนการเริ่มต้นด้วยการโหลดไฟล์ PDF จากนั้นสร้างวัตถุ TableAbsorber ที่มีวิธีการอ่านตารางจากไฟล์ PDF เมื่อแยกวิเคราะห์ตารางทั้งหมดในหน้าใดหน้าหนึ่งแล้ว ตารางแรกจะเข้าถึงได้จากคอลเลกชั่น จากนั้นแต่ละแถวและคอลัมน์จะถูกแยกวิเคราะห์เพื่อรับคอลเลกชั่นของเศษข้อความในนั้นเพื่อดึงข้อมูล
รหัสเพื่อแยกตารางจาก PDF โดยใช้ Python
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load source PDF | |
pdfDocument = pdf.Document("PdfWithTable.pdf") | |
# Declare and initialize TableAbsorber object | |
tableAbsorber = pdf.text.TableAbsorber() | |
# Parse all the tables | |
tableAbsorber.visit(pdfDocument.pages[1]) | |
# Get a reference to the first table | |
absorbedTable = tableAbsorber.table_list[0] | |
# Iterate through all the rows | |
for pdfTableRow in absorbedTable.row_list: | |
# Iterate through all the columns | |
for pdfTableCell in pdfTableRow.cell_list: | |
# Fetch the text fragments | |
textFragmentCollection = pdfTableCell.text_fragments | |
# Iterate through the text fragments | |
for textFragment in textFragmentCollection: | |
# Display the text | |
print(textFragment.text) | |
print("Data read successfully from the table") |
โค้ดด้านบนแสดงให้เห็นว่าการใช้ python อ่านตาราง pdf และดึงข้อมูลมาประมวลผลอย่างไร เมื่อเราเรียกใช้เมธอด visit() ในคลาส TableAbsorber เมธอดนี้จะเติมอาร์เรย์ table_list ที่ใช้ในการเข้าถึงแต่ละตาราง แต่ละตารางในคอลเล็กชันตารางมีคุณสมบัติ row_list ที่มีคุณสมบัติ cell_list ให้สิทธิ์เข้าถึงคอลเล็กชันคอลัมน์ และสุดท้ายคุณเข้าถึงคุณสมบัติ text_fragments เพื่อรับคอลเล็กชันข้อมูลในเซลล์หนึ่งๆ
บทความนี้สอนเราว่าการ แยกตารางจาก PDF Python สามารถใช้งานได้ง่าย หากคุณต้องการเรียนรู้ขั้นตอนการอ่านบุ๊กมาร์กในรูปแบบ PDF โปรดดูบทความใน วิธีอ่านบุ๊กมาร์กใน PDF โดยใช้ Python