บทแนะนำสั้นๆ นี้จะอธิบาย วิธีแปลง PDF เป็น Text โดยใช้ Python โดยจะครอบคลุมรายละเอียดการกำหนดค่าระบบและกระบวนการทีละขั้นตอนพร้อมกับโค้ดตัวอย่างเพื่อทำการแปลงโดยใช้ PDF เป็น Text Python ยิ่งไปกว่านั้น คุณสามารถเขียนข้อความที่แยกออกมาไปยังไฟล์หรือที่คอนโซลตามความต้องการของคุณ
ขั้นตอนในการแปลง PDF เป็นข้อความใน Python
- กำหนดค่าระบบโดยการติดตั้งไลบรารี Aspose.PDF สำหรับ Python ผ่าน .NET
- โหลดไฟล์ PDF ต้นฉบับโดยใช้คลาส Document เพื่อแปลงเป็นไฟล์ข้อความ
- สร้างวัตถุคลาส TextAbsorber เพื่อดึงข้อความด้วยเมธอด Page.Accept()
- สร้างไฟล์ข้อความและเขียนสตริงข้อความเอาต์พุตในไฟล์
ขั้นตอนเหล่านี้สรุปวิธีการใช้การแปลง Python PDF เป็น TXT ด้วยการเรียก API สองสามครั้ง ในขั้นตอนแรก ให้โหลดไฟล์ PDF อินพุตและเริ่มต้นวัตถุของ TextAbsorber ซึ่งสามารถใช้เพื่อดึงข้อความจากหน้าต่างๆ จากนั้นคุณต้องรับข้อความที่แยกออกมาแล้วเขียนลงในไฟล์ TXT พร้อมกับระบุเส้นทางและชื่อไฟล์
รหัสเพื่อแปลง PDF เป็นข้อความใน Python
ข้อมูลโค้ดนี้แสดงวิธีสร้าง PDF เป็น Text converter โดยใช้ Python มันโหลดเอกสาร PDF ต้นฉบับโดยใช้คลาสเอกสาร จากนั้น คุณสามารถดึงข้อความจากทุกหน้าของไฟล์ PDF ด้วยวิธีการยอมรับหรืออ่านสตริงข้อความจากหน้าใดหน้าหนึ่งโดยระบุหมายเลขหน้า สุดท้าย เขียนสตริงข้อความลงในไฟล์และส่งออกไฟล์ข้อความไปยังดิสก์
ในบทความนี้ เราได้เรียนรู้ว่าการเรนเดอร์ Python PDF เป็น Text สามารถทำได้กับแอปพลิเคชันของคุณอย่างไร อย่างไรก็ตาม หากคุณต้องการเรียนรู้การแปลง PDF เป็น Word โปรดอ่านบทช่วยสอนเกี่ยวกับ วิธีแปลง PDF เป็น Word โดยใช้ Python