ในบทช่วยสอนสั้นๆ นี้ เราจะได้เรียนรู้ วิธีอ่านเอกสาร Word ใน C# ด้วยความช่วยเหลือของรายละเอียดเกี่ยวกับการกำหนดค่าสภาพแวดล้อม รายการขั้นตอน และโค้ดที่รันได้ รหัสจะแสดงการอ่านไฟล์ Word ในรูปแบบต่างๆ คุณจะได้เรียนรู้ว่า C# อ่านเอกสาร Word ได้อย่างไรโดยการโหลดไฟล์ Word เช่น DOCX, DOC, RTF หรือ HTML เป็นต้น จากนั้นเข้าถึงองค์ประกอบต่างๆ เพื่อประมวลผลหรือดู
ขั้นตอนในการอ่านข้อมูลจากเอกสาร Word ใน C#
- กำหนดค่าสภาพแวดล้อมโครงการเพื่อใช้ Aspose.Words จากตัวจัดการแพ็คเกจ NuGet
- โหลดไฟล์ DOCX อินพุตลงในวัตถุคลาส Document
- รับโหนดประเภท Paragraph ทั้งหมดจากเอกสาร
- แปลงแต่ละย่อหน้าเป็นสตริงและแสดงบนคอนโซล
- รับโหนดประเภท Run ทั้งหมดจากเอกสาร
- แปลงแต่ละรายการ Run เป็นสตริงและแสดงพร้อมกับชื่อฟอนต์และขนาด
ขั้นตอนเหล่านี้ให้ข้อมูลโดยละเอียดที่จำเป็นในการกำหนดค่าสภาพแวดล้อมและงานที่จะดำเนินการในขณะที่เขียนโปรแกรมอ่านไฟล์ Word มันแสดงให้เห็นว่า C# อ่านไฟล์ DOCX ได้อย่างไรโดยการโหลดไฟล์ต้นฉบับลงในอินสแตนซ์ของคลาส Document จากนั้นเข้าถึงย่อหน้าทั้งหมดเพื่อแสดงข้อความ นอกจากนี้ยังอธิบายการอ่านข้อมูลจากย่อหน้า ตาราง ฯลฯ ในลักษณะที่แยกแต่ละส่วนของข้อความที่มีลักษณะแตกต่างกันออก หรือแต่ละค่าในเซลล์ตารางมีการเข้าถึงแยกต่างหากสำหรับการประมวลผล
รหัสสำหรับอ่านไฟล์ Word ใน C#
using System; | |
using Aspose.Words; | |
namespace ReadWordDocumentInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) // Main function to read Word document in C# | |
{ | |
// Create and load license to read DOCX without trial limits | |
License licRotateImage = new License(); | |
licRotateImage.SetLicense("Aspose.Word.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true)) | |
Console.WriteLine(para.ToString(SaveFormat.Text)); | |
// Read all the Runs in the document and display style and text | |
foreach (Run run in doc.GetChildNodes(NodeType.Run, true)) | |
{ | |
Font font = run.Font; | |
Console.WriteLine(font.Name + "," + font.Size.ToString()); | |
Console.WriteLine(run.Text); | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
โค้ดนี้สาธิต วิธีอ่านไฟล์ Word ใน C# โดยใช้ฟังก์ชัน Document.GetChildNodes() ที่ต้องใช้ประเภทของโหนดที่จะดึงข้อมูล เช่น Paragraph, Run, Section, Body, HeaderFooter, Comment เป็นต้น เมื่อเข้าถึงโหนดย่อยแล้ว คุณต้องแปลงเป็นประเภทที่เกี่ยวข้องเพื่อใช้วิธีการและคุณสมบัติของมัน ตัวอย่างเช่น เราได้อ่านเอกสารสองครั้งโดยที่ข้อความทั้งหมดจากเอกสารทั้งฉบับแสดงครั้งแรกโดยไม่คำนึงถึงย่อหน้าหรือตารางปกติ ฯลฯ และอ่านครั้งที่สองตามการเปลี่ยนแปลงของสไตล์และประเภทเนื้อหา
บทความนี้สอนให้เราอ่านไฟล์ Word อย่างไรก็ตาม หากคุณต้องการเรียนรู้การแปลงเอกสาร Word เป็น HTML โปรดดูบทความใน วิธีแปลงเอกสาร Word เป็น HTML โดยใช้ C#