इस उदाहरण का उपयोग करके, आप सीखेंगे कि पायथन में वर्ड दस्तावेज़ से Text कैसे निकालें। यह चरण-दर-चरण वर्कफ़्लो का पालन करके विकास वातावरण को कॉन्फ़िगर करने की जानकारी भी प्रदान करता है, और पायथन** का उपयोग करके **Word से TXT कनवर्टर विकसित करने के लिए एक उदाहरण कोड भी प्रदान करता है। इस एप्लिकेशन को विंडोज़, लिनक्स या मैकओएस में पायथन और .NET फ्रेमवर्क का समर्थन करने वाले किसी भी वातावरण में एकीकृत किया जा सकता है।
पायथन में वर्ड डॉक्यूमेंट से टेक्स्ट निकालने के चरण
- Python का उपयोग करके DOCX फ़ाइल को TXT फ़ाइल में बदलने के लिए .NET के माध्यम से पायथन के लिए Aspose.Words इंस्टॉल करके वातावरण स्थापित करें
- Document वर्ग के उदाहरण का उपयोग करके, स्रोत Word DOCX फ़ाइल तक पहुँचें
- आवश्यक गुण सेट करने के लिए TxtSaveOptions क्लास ऑब्जेक्ट इंस्टेंस का उपयोग करें
- सेव विधि का उपयोग करके लोड किए गए वर्ड दस्तावेज़ को TXT फ़ाइल में कनवर्ट करें
पायथन में ये सटीक चरण एक बहुत ही सरल एपीआई इंटरफ़ेस का उपयोग करके DOCX फ़ाइल से टेक्स्ट निकालते हैं। प्रक्रिया दस्तावेज़ वर्ग के उदाहरण का उपयोग करके डिस्क से स्रोत DOCX फ़ाइल तक पहुँचने से शुरू होगी, जिसके बाद TxtSaveOptions वर्ग ऑब्जेक्ट का उपयोग करके वांछित आउटपुट TXT फ़ाइल गुणों को सेट किया जाएगा। अंत में, लोड की गई Word दस्तावेज़ फ़ाइल को सेव विधि का उपयोग करके डिस्क पर TXT फ़ाइल के रूप में सहेजा जाता है।
पायथन में DOCX को TXT में बदलने के लिए कोड
उदाहरण पायथन में DOCX को TXT में बदलने की एपीआई क्षमता प्रदर्शित करता है। TxtSaveOptions क्लास इंस्टेंस का उपयोग करना वैकल्पिक है और आप डिफ़ॉल्ट विकल्पों का उपयोग करके TXT फ़ाइल को सहेज सकते हैं। हालाँकि, यदि आप आउटपुट TXT फ़ाइल को कस्टमाइज़ करना चाहते हैं, तो आप TxtSaveOptions क्लास द्वारा उजागर किए गए विभिन्न गुणों का उपयोग कर सकते हैं, जिनमें एन्कोडिंग, फोर्स_पेज_ब्रेक्स, मैक्स_कैरेक्टर्स_पर_लाइन, पैराग्राफ_ब्रेक और प्रीटी_फॉर्मेट सेट करना शामिल है।
इस लेख में, हमने सीखा है कि DOCX से टेक्स्ट निकालने के लिए Python आधारित API एक अच्छा विकल्प हो सकता है। यदि आप पीडीएफ दस्तावेज़ों की तुलना करना सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ दस्तावेज़ों की तुलना करें पर लेख देखें।