บทช่วยสอนสั้นๆ นี้นำเสนอข้อมูลเกี่ยวกับ วิธีอ่านเอกสาร Word ในภาษา Java โดยให้ขั้นตอนโดยละเอียดและโค้ด Java ที่รันได้เพื่ออ่านเอกสารตัวอย่างในรูปแบบต่างๆ แนะนำคลาสที่จำเป็นซึ่งใช้ในการอ่านไฟล์ Word และเข้าถึงเซ็กเมนต์ต่างๆ ในขณะที่ อ่านเอกสาร Word ในโค้ด Java เช่น DOCX, DOC หรือไฟล์ที่รองรับ MS Word อื่นๆ คุณจะวนซ้ำผ่านโหนดย่อยต่างๆ ของเอกสารและประมวลผลแต่ละโหนดตามความต้องการของคุณ
ขั้นตอนในการอ่านไฟล์ Word ใน Java
- ติดตั้ง Aspose.Words for Java โดยใช้ที่เก็บ Maven เพื่ออ่านไฟล์ DOCX
- โหลดไฟล์ DOCX ต้นทางลงในวัตถุคลาส Document เพื่ออ่านใน Java
- วนซ้ำผ่านโหนดประเภท Paragraph ทั้งหมดในเอกสาร
- แปลงข้อความแต่ละย่อหน้าเป็นสตริงและแสดงบนคอนโซล
- วนซ้ำผ่านโหนดประเภท Run ทั้งหมดในเอกสาร
- แปลงแต่ละโหนดเป็นประเภท Run และเข้าถึงชื่อแบบอักษร ขนาด และข้อความของการเรียกใช้
- แสดงข้อความเรียกใช้แต่ละรายการบนคอนโซล
ขั้นตอนเหล่านี้อธิบาย วิธีอ่านไฟล์ Word ใน Java โดยการแชร์ลิงก์ไปยังหน้าการกำหนดค่า จากนั้นจึงแนะนำวิธีการโหลดเอกสาร Word ต้นทาง เมื่อโหลดไฟล์ Word แล้ว จะมีการโหลด document object model (DOM) เช่น โครงสร้างแบบลอจิคัล และสามารถแยกวิเคราะห์ได้หลายวิธี ขั้นตอนเหล่านี้ช่วยในการเตรียมคอลเลกชันหลัก 2 ชุด ได้แก่ ย่อหน้าและเรียกใช้ เพื่อเข้าถึงส่วนต่างๆ ของเอกสาร Word ที่โหลด
รหัสสำหรับอ่านไฟล์ DOCX ใน Java
โค้ด Java สำหรับอ่านเอกสาร Word นี้สาธิตการแยกวิเคราะห์ DOM โดยใช้ตัวกรองต่างๆ เช่น ในตอนแรกเราจะดึงโหนดย่อหน้าทั้งหมด คลาสย่อหน้าจัดเตรียมฟังก์ชัน toString() ซึ่งแยกข้อความจากทั้งย่อหน้ารวมถึงตาราง ฯลฯ และบันทึกลงในตัวแปรสตริง ในทำนองเดียวกัน เมื่อเราแยกวิเคราะห์เอกสารเพื่อดึง Runs ทั้งหมด มันจะแยกเนื้อหาตามสไตล์ ฟอนต์ ประเภทโหนด ฯลฯ และแบ่งย่อหน้าเดียวออกเป็นหลายส่วนตามสไตล์ฟอนต์ข้อความ เช่น ข้อความตัวหนาจะถูกจัดเตรียมแยกกัน ตัวเอียง ข้อความแยกกันเป็นต้น
บทช่วยสอนนี้แนะนำเราให้อ่านไฟล์ DOCX อย่างไรก็ตาม หากคุณต้องการการแปลงบางประเภท เช่น Word เป็น PDF โปรดดูบทความใน วิธีแปลง Word เป็น PDF ใน Java