แยกข้อความจากเอกสาร Word ใน Java

One can Extract Text from Word document in Java by referring to this simple article. It includes the required steps to set up the development environment, step-wise program workflow, and a running example code to convert DOCX to TXT in Java. The developed application can be used in any Java-supported environment in Linux, MS Windows, or macOS.

ขั้นตอนในการพัฒนา Word เป็น TXT Converter โดยใช้ Java

  1. กำหนดค่าสภาพแวดล้อมโดยการติดตั้ง Aspose.Words for Java จากตัวจัดการพื้นที่เก็บข้อมูลเพื่อแปลงไฟล์ DOCX เป็นไฟล์ TXT โดยใช้ Java
  2. เปิดเอกสาร Word ต้นฉบับโดยสร้างอินสแตนซ์ของคลาส Document สำหรับการแปลงไฟล์ Word เป็น TXT
  3. สร้างออบเจ็กต์คลาส TxtSaveOptions เพื่อตั้งค่าคุณสมบัติไฟล์ TXT เอาต์พุตที่ต้องการ
  4. บันทึกไฟล์ DOCX ที่โหลดเป็นไฟล์ TXT บนดิสก์โดยใช้วิธีการบันทึก

ขั้นตอนที่แม่นยำเหล่านี้ใน Java แยกข้อความจากเอกสาร Word โดยใช้อินเทอร์เฟซ API แบบธรรมดา ขั้นแรก เราจะโหลดไฟล์ DOCX ต้นทางจากดิสก์โดยใช้อินสแตนซ์ของคลาส Document ซึ่งตามด้วยการตั้งค่าตัวเลือกการส่งออกไฟล์ TXT เอาต์พุตที่ต้องการโดยใช้อินสแตนซ์ของคลาส TxtSaveOptions สุดท้าย เอกสาร Word ที่เปิดอยู่จะถูกบันทึกเป็นไฟล์ TXT บนดิสก์โดยใช้วิธีการบันทึก

รหัสสำหรับแปลง DOCX เป็น TXT ใน Java

ในการเข้าถึง DOCX ต้นทางจากดิสก์และ แยกข้อความจากเอกสาร Word API ที่ใช้ Java ได้ถูกนำมาใช้ในตัวอย่างโค้ดข้างต้น สามารถบันทึกไฟล์ TXT บนดิสก์ได้โดยไม่ต้องอาศัยอินสแตนซ์คลาส TxtSaveOptions ที่เป็นตัวเลือก อย่างไรก็ตาม หากคุณต้องการปรับแต่งไฟล์ TXT ที่ต้องการ คุณสามารถใช้วิธี setter ต่างๆ ที่แสดงโดยคลาส TxtSaveOptions รวมถึง setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() และ setPrettyFormat() เป็นต้น

บทความนี้ให้ความกระจ่างแก่เราในการพัฒนา ตัวแปลง Word เป็น TXT โดยใช้ Java หากคุณสนใจที่จะเปรียบเทียบเอกสาร Word โปรดดูบทความเกี่ยวกับ เปรียบเทียบเอกสาร Word โดยใช้ Java

 ไทย