วิธีอ่านเอกสาร Word ใน C#

ในบทช่วยสอนสั้นๆ นี้ เราจะได้เรียนรู้ วิธีอ่านเอกสาร Word ใน C# ด้วยความช่วยเหลือของรายละเอียดเกี่ยวกับการกำหนดค่าสภาพแวดล้อม รายการขั้นตอน และโค้ดที่รันได้ รหัสจะแสดงการอ่านไฟล์ Word ในรูปแบบต่างๆ คุณจะได้เรียนรู้ว่า C# อ่านเอกสาร Word ได้อย่างไรโดยการโหลดไฟล์ Word เช่น DOCX, DOC, RTF หรือ HTML เป็นต้น จากนั้นเข้าถึงองค์ประกอบต่างๆ เพื่อประมวลผลหรือดู

ขั้นตอนในการอ่านข้อมูลจากเอกสาร Word ใน C#

  1. กำหนดค่าสภาพแวดล้อมโครงการเพื่อใช้ Aspose.Words จากตัวจัดการแพ็คเกจ NuGet
  2. โหลดไฟล์ DOCX อินพุตลงในวัตถุคลาส Document
  3. รับโหนดประเภท Paragraph ทั้งหมดจากเอกสาร
  4. แปลงแต่ละย่อหน้าเป็นสตริงและแสดงบนคอนโซล
  5. รับโหนดประเภท Run ทั้งหมดจากเอกสาร
  6. แปลงแต่ละรายการ Run เป็นสตริงและแสดงพร้อมกับชื่อฟอนต์และขนาด

ขั้นตอนเหล่านี้ให้ข้อมูลโดยละเอียดที่จำเป็นในการกำหนดค่าสภาพแวดล้อมและงานที่จะดำเนินการในขณะที่เขียนโปรแกรมอ่านไฟล์ Word มันแสดงให้เห็นว่า C# อ่านไฟล์ DOCX ได้อย่างไรโดยการโหลดไฟล์ต้นฉบับลงในอินสแตนซ์ของคลาส Document จากนั้นเข้าถึงย่อหน้าทั้งหมดเพื่อแสดงข้อความ นอกจากนี้ยังอธิบายการอ่านข้อมูลจากย่อหน้า ตาราง ฯลฯ ในลักษณะที่แยกแต่ละส่วนของข้อความที่มีลักษณะแตกต่างกันออก หรือแต่ละค่าในเซลล์ตารางมีการเข้าถึงแยกต่างหากสำหรับการประมวลผล

รหัสสำหรับอ่านไฟล์ Word ใน C#

โค้ดนี้สาธิต วิธีอ่านไฟล์ Word ใน C# โดยใช้ฟังก์ชัน Document.GetChildNodes() ที่ต้องใช้ประเภทของโหนดที่จะดึงข้อมูล เช่น Paragraph, Run, Section, Body, HeaderFooter, Comment เป็นต้น เมื่อเข้าถึงโหนดย่อยแล้ว คุณต้องแปลงเป็นประเภทที่เกี่ยวข้องเพื่อใช้วิธีการและคุณสมบัติของมัน ตัวอย่างเช่น เราได้อ่านเอกสารสองครั้งโดยที่ข้อความทั้งหมดจากเอกสารทั้งฉบับแสดงครั้งแรกโดยไม่คำนึงถึงย่อหน้าหรือตารางปกติ ฯลฯ และอ่านครั้งที่สองตามการเปลี่ยนแปลงของสไตล์และประเภทเนื้อหา

บทความนี้สอนให้เราอ่านไฟล์ Word อย่างไรก็ตาม หากคุณต้องการเรียนรู้การแปลงเอกสาร Word เป็น HTML โปรดดูบทความใน วิธีแปลงเอกสาร Word เป็น HTML โดยใช้ C#

 ไทย