แยกข้อความจากเอกสาร Word ใน Python

เมื่อใช้ตัวอย่างนี้ คุณจะได้เรียนรู้วิธี แยก Text จากเอกสาร Word ใน Python นอกจากนี้ยังให้ข้อมูลเพื่อกำหนดค่าสภาพแวดล้อมการพัฒนาโดยปฏิบัติตามขั้นตอนการทำงานทีละขั้นตอน และโค้ดตัวอย่างเพื่อพัฒนา Word ตัวแปลงเป็น TXT โดยใช้ Python แอปพลิเคชันนี้สามารถรวมเข้ากับสภาพแวดล้อมใดๆ ที่รองรับ Python และเฟรมเวิร์ก .NET ใน Windows, Linux หรือ macOS

ขั้นตอนในการแยกข้อความจากเอกสาร Word ใน Python

  1. สร้างสภาพแวดล้อมโดยการติดตั้ง Aspose.Words สำหรับ Python ผ่าน .NET เพื่อแปลงไฟล์ DOCX เป็นไฟล์ TXT โดยใช้ Python
  2. โดยใช้อินสแตนซ์ของคลาส Document เข้าถึงไฟล์ Word DOCX ต้นฉบับ
  3. ใช้อินสแตนซ์ออบเจ็กต์คลาส TxtSaveOptions เพื่อตั้งค่าคุณสมบัติที่จำเป็น
  4. แปลงเอกสาร Word ที่โหลดเป็นไฟล์ TXT โดยใช้วิธีการบันทึก

ขั้นตอนที่แม่นยำเหล่านี้ใน Python แยกข้อความจากไฟล์ DOCX โดยใช้อินเทอร์เฟซ API ที่เรียบง่าย กระบวนการนี้จะเริ่มต้นด้วยการเข้าถึงไฟล์ DOCX ต้นทางจากดิสก์โดยใช้อินสแตนซ์ของคลาส Document ซึ่งตามมาด้วยการตั้งค่าคุณสมบัติไฟล์ TXT เอาต์พุตที่ต้องการโดยใช้อ็อบเจ็กต์คลาส TxtSaveOptions ในที่สุดไฟล์เอกสาร Word ที่โหลดจะถูกบันทึกเป็นไฟล์ TXT บนดิสก์โดยใช้วิธีการบันทึก

รหัสสำหรับแปลง DOCX เป็น TXT ใน Python

ตัวอย่างนี้แสดงให้เห็นถึงความสามารถของ API ในการ แปลง DOCX เป็น TXT ใน Python การใช้อินสแตนซ์คลาส TxtSaveOptions เป็นทางเลือก และคุณสามารถบันทึกไฟล์ TXT ได้โดยใช้ตัวเลือกเริ่มต้น อย่างไรก็ตาม หากคุณต้องการปรับแต่งไฟล์ TXT เอาท์พุต คุณสามารถใช้คุณสมบัติต่างๆ ที่แสดงโดยคลาส TxtSaveOptions รวมถึงการตั้งค่าการเข้ารหัส, force_page_breaks, max_Characters_per_line, Paragraph_break และ Pretty_format เป็นต้น

ในบทความนี้ เราได้เรียนรู้ว่าการ แยกข้อความจาก DOCX Python ที่ใช้ API อาจเป็นทางเลือกที่ดี หากคุณต้องการเรียนรู้การเปรียบเทียบเอกสาร PDF โปรดดูบทความเกี่ยวกับ เปรียบเทียบเอกสาร PDF โดยใช้ Python

 ไทย