जावा में वर्ड डॉक्यूमेंट कैसे पढ़ें

यह संक्षिप्त ट्यूटोरियल विस्तृत चरण-दर-चरण प्रक्रिया और नमूना दस्तावेज़ को अलग-अलग तरीकों से पढ़ने योग्य जावा कोड प्रदान करके जावा में वर्ड दस्तावेज़ को कैसे पढ़ा जाए पर जानकारी प्रस्तुत करता है। यह उन आवश्यक वर्गों का परिचय देता है जिनका उपयोग किसी वर्ड फ़ाइल को पढ़ने और उसके विभिन्न खंडों तक पहुँचने के लिए किया जाता है। जावा कोड में वर्ड दस्तावेज़ पढ़ते समय जैसे DOCX, DOC, या अन्य MS Word समर्थित फ़ाइलें, आप दस्तावेज़ के विभिन्न चाइल्ड नोड्स के माध्यम से पुनरावृति करेंगे और प्रत्येक को अपनी आवश्यकता के अनुसार संसाधित करेंगे।

जावा में वर्ड फाइल पढ़ने के चरण

  1. DOCX फ़ाइल पढ़ने के लिए मावेन रिपॉजिटरी का उपयोग करके Aspose.Words for Java इंस्टॉल करें
  2. जावा में पढ़ने के लिए स्रोत DOCX फ़ाइल को Document क्लास ऑब्जेक्ट में लोड करें
  3. दस्तावेज़ में सभी Paragraph प्रकार के नोड्स के माध्यम से पुनरावृति करें
  4. प्रत्येक पैराग्राफ टेक्स्ट को एक स्ट्रिंग में बदलें और इसे कंसोल पर प्रदर्शित करें
  5. दस्तावेज़ में सभी रन प्रकार नोड्स के माध्यम से पुनरावृति
  6. प्रत्येक नोड को रन प्रकार में बदलें और रन के फ़ॉन्ट नाम, आकार और टेक्स्ट तक पहुंचें
  7. कंसोल पर प्रत्येक रन टेक्स्ट प्रदर्शित करें

ये चरण कॉन्फ़िगरेशन पृष्ठ पर लिंक साझा करके और फिर स्रोत वर्ड दस्तावेज़ को लोड करने के लिए मार्गदर्शन करके * जावा में वर्ड फ़ाइल को कैसे पढ़ें* का वर्णन करते हैं। एक बार Word फ़ाइल लोड हो जाने के बाद, इसका दस्तावेज़ ऑब्जेक्ट मॉडल (DOM) यानी तार्किक संरचना भी लोड हो जाती है और इसे अलग-अलग तरीकों से पार्स किया जा सकता है। ये चरण दो मुख्य संग्रह तैयार करने में सहायता करते हैं जो लोड किए गए Word दस्तावेज़ के विभिन्न भागों तक पहुँचने के लिए पैराग्राफ़ और रन हैं।

जावा में DOCX फ़ाइल पढ़ने के लिए कोड

यह वर्ड डॉक्यूमेंट को पढ़ने के लिए जावा कोड विभिन्न फिल्टरों का उपयोग करके डोम के पार्सिंग को प्रदर्शित करता है जैसे कि सबसे पहले हम सभी पैराग्राफ नोड्स को प्राप्त करते हैं। पैराग्राफ क्लास toString() फ़ंक्शन प्रदान करता है जो टेबल्स आदि सहित पूरे पैराग्राफ से टेक्स्ट निकालता है और इसे एक स्ट्रिंग वेरिएबल में सेव करता है। इसी तरह, जब हम सभी रन लाने के लिए दस्तावेज़ को पार्स करते हैं, तो यह उनकी शैली, फ़ॉन्ट, नोड प्रकार आदि के आधार पर सामग्री को अलग करता है और टेक्स्ट फ़ॉन्ट शैली के आधार पर एक पैराग्राफ को कई खंडों में विभाजित करता है जैसे बोल्ड टेक्स्ट अलग से प्रदान किया जाएगा, इटैलिक पाठ अलग से और इतने पर।

इस ट्यूटोरियल ने हमें एक DOCX फ़ाइल को पढ़ने के लिए मार्गदर्शन किया है, हालांकि, यदि आप Word से PDF में किसी प्रकार का रूपांतरण चाहते हैं, तो जावा में वर्ड को पीडीएफ में कैसे बदलें पर लेख देखें।

 हिन्दी