วิธีอ่านเอกสาร Word ใน C#

ในบทช่วยสอนสั้นๆ นี้ เราจะได้เรียนรู้ วิธีอ่านเอกสาร Word ใน C# ด้วยความช่วยเหลือของรายละเอียดเกี่ยวกับการกำหนดค่าสภาพแวดล้อม รายการขั้นตอน และโค้ดที่รันได้ รหัสจะแสดงการอ่านไฟล์ Word ในรูปแบบต่างๆ คุณจะได้เรียนรู้ว่า C# อ่านเอกสาร Word ได้อย่างไรโดยการโหลดไฟล์ Word เช่น DOCX, DOC, RTF หรือ HTML เป็นต้น จากนั้นเข้าถึงองค์ประกอบต่างๆ เพื่อประมวลผลหรือดู

ขั้นตอนในการอ่านข้อมูลจากเอกสาร Word ใน C#

  1. กำหนดค่าสภาพแวดล้อมโครงการเพื่อใช้ Aspose.Words จากตัวจัดการแพ็คเกจ NuGet
  2. โหลดไฟล์ DOCX อินพุตลงในวัตถุคลาส Document
  3. รับโหนดประเภท Paragraph ทั้งหมดจากเอกสาร
  4. แปลงแต่ละย่อหน้าเป็นสตริงและแสดงบนคอนโซล
  5. รับโหนดประเภท Run ทั้งหมดจากเอกสาร
  6. แปลงแต่ละรายการ Run เป็นสตริงและแสดงพร้อมกับชื่อฟอนต์และขนาด

ขั้นตอนเหล่านี้ให้ข้อมูลโดยละเอียดที่จำเป็นในการกำหนดค่าสภาพแวดล้อมและงานที่จะดำเนินการในขณะที่เขียนโปรแกรมอ่านไฟล์ Word มันแสดงให้เห็นว่า C# อ่านไฟล์ DOCX ได้อย่างไรโดยการโหลดไฟล์ต้นฉบับลงในอินสแตนซ์ของคลาส Document จากนั้นเข้าถึงย่อหน้าทั้งหมดเพื่อแสดงข้อความ นอกจากนี้ยังอธิบายการอ่านข้อมูลจากย่อหน้า ตาราง ฯลฯ ในลักษณะที่แยกแต่ละส่วนของข้อความที่มีลักษณะแตกต่างกันออก หรือแต่ละค่าในเซลล์ตารางมีการเข้าถึงแยกต่างหากสำหรับการประมวลผล

รหัสสำหรับอ่านไฟล์ Word ใน C#

using System;
using Aspose.Words;
namespace ReadWordDocumentInCSharp
{
class Program
{
static void Main(string[] args) // Main function to read Word document in C#
{
// Create and load license to read DOCX without trial limits
License licRotateImage = new License();
licRotateImage.SetLicense("Aspose.Word.lic");
// Load the source Word file to be read
Document doc = new Document("input.docx");
// Read all the paragraph in the document and display its contents
foreach (Paragraph para in doc.GetChildNodes(NodeType.Paragraph, true))
Console.WriteLine(para.ToString(SaveFormat.Text));
// Read all the Runs in the document and display style and text
foreach (Run run in doc.GetChildNodes(NodeType.Run, true))
{
Font font = run.Font;
Console.WriteLine(font.Name + "," + font.Size.ToString());
Console.WriteLine(run.Text);
}
System.Console.WriteLine("Done");
}
}
}

โค้ดนี้สาธิต วิธีอ่านไฟล์ Word ใน C# โดยใช้ฟังก์ชัน Document.GetChildNodes() ที่ต้องใช้ประเภทของโหนดที่จะดึงข้อมูล เช่น Paragraph, Run, Section, Body, HeaderFooter, Comment เป็นต้น เมื่อเข้าถึงโหนดย่อยแล้ว คุณต้องแปลงเป็นประเภทที่เกี่ยวข้องเพื่อใช้วิธีการและคุณสมบัติของมัน ตัวอย่างเช่น เราได้อ่านเอกสารสองครั้งโดยที่ข้อความทั้งหมดจากเอกสารทั้งฉบับแสดงครั้งแรกโดยไม่คำนึงถึงย่อหน้าหรือตารางปกติ ฯลฯ และอ่านครั้งที่สองตามการเปลี่ยนแปลงของสไตล์และประเภทเนื้อหา

บทความนี้สอนให้เราอ่านไฟล์ Word อย่างไรก็ตาม หากคุณต้องการเรียนรู้การแปลงเอกสาร Word เป็น HTML โปรดดูบทความใน วิธีแปลงเอกสาร Word เป็น HTML โดยใช้ C#

 ไทย