जावा में वर्ड दस्तावेज़ से टेक्स्ट निकालें

कोई भी इस सरल लेख का हवाला देकर जावा में वर्ड दस्तावेज़ से Text निकाल सकता है। इसमें विकास परिवेश स्थापित करने के लिए आवश्यक चरण, चरण-वार प्रोग्राम वर्कफ़्लो और जावा में ** DOCX को TXT में बदलने के लिए एक रनिंग उदाहरण कोड शामिल है। विकसित एप्लिकेशन का उपयोग लिनक्स, एमएस विंडोज या मैकओएस में किसी भी जावा-समर्थित वातावरण में किया जा सकता है।

जावा का उपयोग करके वर्ड से TXT कन्वर्टर विकसित करने के चरण

  1. जावा का उपयोग करके DOCX फ़ाइल को TXT फ़ाइल में बदलने के लिए रिपॉजिटरी मैनेजर से Aspose.Words for Java इंस्टॉल करके पर्यावरण को कॉन्फ़िगर करें
  2. Word से TXT फ़ाइल रूपांतरण के लिए Document वर्ग का एक उदाहरण बनाकर स्रोत Word दस्तावेज़ खोलें
  3. आवश्यक आउटपुट TXT फ़ाइल गुण सेट करने के लिए एक TxtSaveOptions क्लास ऑब्जेक्ट बनाएं
  4. सेव विधि का उपयोग करके लोड की गई DOCX फ़ाइल को डिस्क पर TXT फ़ाइल के रूप में सहेजें

जावा में ये सटीक चरण एक सरल एपीआई इंटरफ़ेस का उपयोग करके वर्ड डॉक्यूमेंट से टेक्स्ट निकालते हैं। सबसे पहले, हम दस्तावेज़ वर्ग के एक उदाहरण का उपयोग करके डिस्क से स्रोत DOCX फ़ाइल को लोड करेंगे, जिसके बाद TxtSaveOptions वर्ग के एक उदाहरण का उपयोग करके वांछित आउटपुट TXT फ़ाइल निर्यात विकल्प सेट करेंगे। अंत में, खुले हुए Word दस्तावेज़ को सेव विधि का उपयोग करके डिस्क पर TXT फ़ाइल के रूप में सहेजा जाता है।

जावा में DOCX को TXT में बदलने के लिए कोड

import com.aspose.words.Document;
import com.aspose.words.License;
import com.aspose.words.SaveFormat;
import com.aspose.words.TxtSaveOptions;
public class HowToConvertWordToText {
public static void main(String[] args) throws Exception { //main function for How To Convert Word to Text in Java
String path= "/Users/Documents/KnowledgeBase/TestData/";
// Applying product license extract text from DOCX
License WordToTextLic = new License();
WordToTextLic.setLicense(path + "Conholdate.Total.Product.Family.lic");
// Load the source DOCX for text conversion
Document sourceWordDoc = new Document(path+"Test1.docx");
// Optional Text saving options
TxtSaveOptions txtOpts = new TxtSaveOptions();
txtOpts.setMaxCharactersPerLine(100);
txtOpts.setSaveFormat(SaveFormat.TEXT);
txtOpts.setPrettyFormat(true);
// Convert Word to Text
sourceWordDoc.save(path + "ExtractedText.txt", txtOpts);
System.out.println("Done");
}
}

डिस्क से स्रोत DOCX तक पहुंचने और वर्ड डॉक्यूमेंट से टेक्स्ट निकालने के लिए जावा आधारित एपीआई का उपयोग उपरोक्त कोड उदाहरण में किया गया है। कोई भी वैकल्पिक TxtSaveOptions क्लास इंस्टेंस पर भरोसा किए बिना डिस्क पर TXT फ़ाइल को सहेज सकता है। हालाँकि, यदि आप वांछित TXT फ़ाइल को कस्टमाइज़ करना चाहते हैं, तो आप TxtSaveOptions क्लास द्वारा प्रदर्शित विभिन्न सेटर विधियों का उपयोग कर सकते हैं जिनमें setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() और setPrettyFormat() शामिल हैं।

इस आलेख ने हमें जावा का उपयोग करके *वर्ड टू टीएक्सटी कनवर्टर विकसित करने के बारे में जानकारी दी है। यदि आप Word दस्तावेज़ों की तुलना करने में रुचि रखते हैं, तो जावा का उपयोग करके वर्ड दस्तावेज़ों की तुलना करें पर लेख देखें।

 हिन्दी