ในบทช่วยสอนสั้นๆ นี้ เราจะได้เรียนรู้ วิธีอ่านเอกสาร Word ใน C# ด้วยความช่วยเหลือของรายละเอียดเกี่ยวกับการกำหนดค่าสภาพแวดล้อม รายการขั้นตอน และโค้ดที่รันได้ รหัสจะแสดงการอ่านไฟล์ Word ในรูปแบบต่างๆ คุณจะได้เรียนรู้ว่า C# อ่านเอกสาร Word ได้อย่างไรโดยการโหลดไฟล์ Word เช่น DOCX, DOC, RTF หรือ HTML เป็นต้น จากนั้นเข้าถึงองค์ประกอบต่างๆ เพื่อประมวลผลหรือดู
ขั้นตอนในการอ่านข้อมูลจากเอกสาร Word ใน C#
- กำหนดค่าสภาพแวดล้อมโครงการเพื่อใช้ Aspose.Words จากตัวจัดการแพ็คเกจ NuGet
- โหลดไฟล์ DOCX อินพุตลงในวัตถุคลาส Document
- รับโหนดประเภท Paragraph ทั้งหมดจากเอกสาร
- แปลงแต่ละย่อหน้าเป็นสตริงและแสดงบนคอนโซล
- รับโหนดประเภท Run ทั้งหมดจากเอกสาร
- แปลงแต่ละรายการ Run เป็นสตริงและแสดงพร้อมกับชื่อฟอนต์และขนาด
ขั้นตอนเหล่านี้ให้ข้อมูลโดยละเอียดที่จำเป็นในการกำหนดค่าสภาพแวดล้อมและงานที่จะดำเนินการในขณะที่เขียนโปรแกรมอ่านไฟล์ Word มันแสดงให้เห็นว่า C# อ่านไฟล์ DOCX ได้อย่างไรโดยการโหลดไฟล์ต้นฉบับลงในอินสแตนซ์ของคลาส Document จากนั้นเข้าถึงย่อหน้าทั้งหมดเพื่อแสดงข้อความ นอกจากนี้ยังอธิบายการอ่านข้อมูลจากย่อหน้า ตาราง ฯลฯ ในลักษณะที่แยกแต่ละส่วนของข้อความที่มีลักษณะแตกต่างกันออก หรือแต่ละค่าในเซลล์ตารางมีการเข้าถึงแยกต่างหากสำหรับการประมวลผล
รหัสสำหรับอ่านไฟล์ Word ใน C#
โค้ดนี้สาธิต วิธีอ่านไฟล์ Word ใน C# โดยใช้ฟังก์ชัน Document.GetChildNodes() ที่ต้องใช้ประเภทของโหนดที่จะดึงข้อมูล เช่น Paragraph, Run, Section, Body, HeaderFooter, Comment เป็นต้น เมื่อเข้าถึงโหนดย่อยแล้ว คุณต้องแปลงเป็นประเภทที่เกี่ยวข้องเพื่อใช้วิธีการและคุณสมบัติของมัน ตัวอย่างเช่น เราได้อ่านเอกสารสองครั้งโดยที่ข้อความทั้งหมดจากเอกสารทั้งฉบับแสดงครั้งแรกโดยไม่คำนึงถึงย่อหน้าหรือตารางปกติ ฯลฯ และอ่านครั้งที่สองตามการเปลี่ยนแปลงของสไตล์และประเภทเนื้อหา
บทความนี้สอนให้เราอ่านไฟล์ Word อย่างไรก็ตาม หากคุณต้องการเรียนรู้การแปลงเอกสาร Word เป็น HTML โปรดดูบทความใน วิธีแปลงเอกสาร Word เป็น HTML โดยใช้ C#