บทช่วยสอนสั้นๆ นี้นำเสนอข้อมูลเกี่ยวกับ วิธีอ่านเอกสาร Word ในภาษา Java โดยให้ขั้นตอนโดยละเอียดและโค้ด Java ที่รันได้เพื่ออ่านเอกสารตัวอย่างในรูปแบบต่างๆ แนะนำคลาสที่จำเป็นซึ่งใช้ในการอ่านไฟล์ Word และเข้าถึงเซ็กเมนต์ต่างๆ ในขณะที่ อ่านเอกสาร Word ในโค้ด Java เช่น DOCX, DOC หรือไฟล์ที่รองรับ MS Word อื่นๆ คุณจะวนซ้ำผ่านโหนดย่อยต่างๆ ของเอกสารและประมวลผลแต่ละโหนดตามความต้องการของคุณ
ขั้นตอนในการอ่านไฟล์ Word ใน Java
- ติดตั้ง Aspose.Words for Java โดยใช้ที่เก็บ Maven เพื่ออ่านไฟล์ DOCX
- โหลดไฟล์ DOCX ต้นทางลงในวัตถุคลาส Document เพื่ออ่านใน Java
- วนซ้ำผ่านโหนดประเภท Paragraph ทั้งหมดในเอกสาร
- แปลงข้อความแต่ละย่อหน้าเป็นสตริงและแสดงบนคอนโซล
- วนซ้ำผ่านโหนดประเภท Run ทั้งหมดในเอกสาร
- แปลงแต่ละโหนดเป็นประเภท Run และเข้าถึงชื่อแบบอักษร ขนาด และข้อความของการเรียกใช้
- แสดงข้อความเรียกใช้แต่ละรายการบนคอนโซล
ขั้นตอนเหล่านี้อธิบาย วิธีอ่านไฟล์ Word ใน Java โดยการแชร์ลิงก์ไปยังหน้าการกำหนดค่า จากนั้นจึงแนะนำวิธีการโหลดเอกสาร Word ต้นทาง เมื่อโหลดไฟล์ Word แล้ว จะมีการโหลด document object model (DOM) เช่น โครงสร้างแบบลอจิคัล และสามารถแยกวิเคราะห์ได้หลายวิธี ขั้นตอนเหล่านี้ช่วยในการเตรียมคอลเลกชันหลัก 2 ชุด ได้แก่ ย่อหน้าและเรียกใช้ เพื่อเข้าถึงส่วนต่างๆ ของเอกสาร Word ที่โหลด
รหัสสำหรับอ่านไฟล์ DOCX ใน Java
package word_articles; | |
import com.aspose.words.Document; | |
import com.aspose.words.Font; | |
import com.aspose.words.License; | |
import com.aspose.words.NodeType; | |
import com.aspose.words.Paragraph; | |
import com.aspose.words.Run; | |
import com.aspose.words.SaveFormat; | |
public class ReadWordDocumentInJava { | |
public static void main(String[] args) throws Exception {// Main function to read Word file in Java | |
// Create a license object to avoid limitations of the trial version | |
// while reading the Word file | |
License licWordToPdf = new License(); | |
licWordToPdf.setLicense("Aspose.Words.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true)) | |
{ | |
Paragraph para = (Paragraph)obj; | |
System.out.println(para.toString(SaveFormat.TEXT)); | |
} | |
// Read all the Runs in the document and display style and text | |
for (Object obj : doc.getChildNodes(NodeType.RUN, true)) | |
{ | |
Run run = (Run)obj; | |
Font font = run.getFont(); | |
System.out.println(font.getName() + "," + font.getSize()); | |
System.out.println(run.getText()); | |
} | |
System.out.println("Done"); | |
} | |
} |
โค้ด Java สำหรับอ่านเอกสาร Word นี้สาธิตการแยกวิเคราะห์ DOM โดยใช้ตัวกรองต่างๆ เช่น ในตอนแรกเราจะดึงโหนดย่อหน้าทั้งหมด คลาสย่อหน้าจัดเตรียมฟังก์ชัน toString() ซึ่งแยกข้อความจากทั้งย่อหน้ารวมถึงตาราง ฯลฯ และบันทึกลงในตัวแปรสตริง ในทำนองเดียวกัน เมื่อเราแยกวิเคราะห์เอกสารเพื่อดึง Runs ทั้งหมด มันจะแยกเนื้อหาตามสไตล์ ฟอนต์ ประเภทโหนด ฯลฯ และแบ่งย่อหน้าเดียวออกเป็นหลายส่วนตามสไตล์ฟอนต์ข้อความ เช่น ข้อความตัวหนาจะถูกจัดเตรียมแยกกัน ตัวเอียง ข้อความแยกกันเป็นต้น
บทช่วยสอนนี้แนะนำเราให้อ่านไฟล์ DOCX อย่างไรก็ตาม หากคุณต้องการการแปลงบางประเภท เช่น Word เป็น PDF โปรดดูบทความใน วิธีแปลง Word เป็น PDF ใน Java