บทแนะนำสั้นๆ นี้จะอธิบาย วิธีแปลง PDF เป็น Text โดยใช้ Python โดยจะครอบคลุมรายละเอียดการกำหนดค่าระบบและกระบวนการทีละขั้นตอนพร้อมกับโค้ดตัวอย่างเพื่อทำการแปลงโดยใช้ PDF เป็น Text Python ยิ่งไปกว่านั้น คุณสามารถเขียนข้อความที่แยกออกมาไปยังไฟล์หรือที่คอนโซลตามความต้องการของคุณ
ขั้นตอนในการแปลง PDF เป็นข้อความใน Python
- กำหนดค่าระบบโดยการติดตั้งไลบรารี Aspose.PDF สำหรับ Python ผ่าน .NET
- โหลดไฟล์ PDF ต้นฉบับโดยใช้คลาส Document เพื่อแปลงเป็นไฟล์ข้อความ
- สร้างวัตถุคลาส TextAbsorber เพื่อดึงข้อความด้วยเมธอด Page.Accept()
- สร้างไฟล์ข้อความและเขียนสตริงข้อความเอาต์พุตในไฟล์
ขั้นตอนเหล่านี้สรุปวิธีการใช้การแปลง Python PDF เป็น TXT ด้วยการเรียก API สองสามครั้ง ในขั้นตอนแรก ให้โหลดไฟล์ PDF อินพุตและเริ่มต้นวัตถุของ TextAbsorber ซึ่งสามารถใช้เพื่อดึงข้อความจากหน้าต่างๆ จากนั้นคุณต้องรับข้อความที่แยกออกมาแล้วเขียนลงในไฟล์ TXT พร้อมกับระบุเส้นทางและชื่อไฟล์
รหัสเพื่อแปลง PDF เป็นข้อความใน Python
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load input PDF document | |
document = pdf.Document("Combine.pdf") | |
# Initialize TextAbsorber object | |
textAbsorber = pdf.text.TextAbsorber() | |
# Call Page.Accept() method to fetch text | |
document.pages.accept(textAbsorber) | |
# Get the extracted text string | |
text = textAbsorber.text | |
# Create a TXT file and write the string | |
text_file = open("PDFtoTXT.txt", "wt") | |
n = text_file.write(text) | |
text_file.close() | |
print("Conversion Completed Successfully") |
ข้อมูลโค้ดนี้แสดงวิธีสร้าง PDF เป็น Text converter โดยใช้ Python มันโหลดเอกสาร PDF ต้นฉบับโดยใช้คลาสเอกสาร จากนั้น คุณสามารถดึงข้อความจากทุกหน้าของไฟล์ PDF ด้วยวิธีการยอมรับหรืออ่านสตริงข้อความจากหน้าใดหน้าหนึ่งโดยระบุหมายเลขหน้า สุดท้าย เขียนสตริงข้อความลงในไฟล์และส่งออกไฟล์ข้อความไปยังดิสก์
ในบทความนี้ เราได้เรียนรู้ว่าการเรนเดอร์ Python PDF เป็น Text สามารถทำได้กับแอปพลิเคชันของคุณอย่างไร อย่างไรก็ตาม หากคุณต้องการเรียนรู้การแปลง PDF เป็น Word โปรดอ่านบทช่วยสอนเกี่ยวกับ วิธีแปลง PDF เป็น Word โดยใช้ Python