इस उदाहरण का उपयोग करके, आप सीखेंगे कि पायथन में वर्ड दस्तावेज़ से Text कैसे निकालें। यह चरण-दर-चरण वर्कफ़्लो का पालन करके विकास वातावरण को कॉन्फ़िगर करने की जानकारी भी प्रदान करता है, और पायथन** का उपयोग करके **Word से TXT कनवर्टर विकसित करने के लिए एक उदाहरण कोड भी प्रदान करता है। इस एप्लिकेशन को विंडोज़, लिनक्स या मैकओएस में पायथन और .NET फ्रेमवर्क का समर्थन करने वाले किसी भी वातावरण में एकीकृत किया जा सकता है।
पायथन में वर्ड डॉक्यूमेंट से टेक्स्ट निकालने के चरण
- Python का उपयोग करके DOCX फ़ाइल को TXT फ़ाइल में बदलने के लिए .NET के माध्यम से पायथन के लिए Aspose.Words इंस्टॉल करके वातावरण स्थापित करें
- Document वर्ग के उदाहरण का उपयोग करके, स्रोत Word DOCX फ़ाइल तक पहुँचें
- आवश्यक गुण सेट करने के लिए TxtSaveOptions क्लास ऑब्जेक्ट इंस्टेंस का उपयोग करें
- सेव विधि का उपयोग करके लोड किए गए वर्ड दस्तावेज़ को TXT फ़ाइल में कनवर्ट करें
पायथन में ये सटीक चरण एक बहुत ही सरल एपीआई इंटरफ़ेस का उपयोग करके DOCX फ़ाइल से टेक्स्ट निकालते हैं। प्रक्रिया दस्तावेज़ वर्ग के उदाहरण का उपयोग करके डिस्क से स्रोत DOCX फ़ाइल तक पहुँचने से शुरू होगी, जिसके बाद TxtSaveOptions वर्ग ऑब्जेक्ट का उपयोग करके वांछित आउटपुट TXT फ़ाइल गुणों को सेट किया जाएगा। अंत में, लोड की गई Word दस्तावेज़ फ़ाइल को सेव विधि का उपयोग करके डिस्क पर TXT फ़ाइल के रूप में सहेजा जाता है।
पायथन में DOCX को TXT में बदलने के लिए कोड
import aspose.words as aw | |
import io | |
# Path to the source files | |
filePath = "Y:////KB//TestData//" | |
# Load the Aspose.Words license in your application to convert DOCX to TXT | |
wordtoTxtLicense = aw.License() | |
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic") | |
# Use the Document class object to access the source DOCX file | |
srcDocument = aw.Document(filePath + "Test1.docx") | |
#Optional Text saving options | |
txtOpts = aw.saving.TxtSaveOptions() | |
txtOpts.max_characters_per_line = 100 | |
txtOpts.save_format = aw.SaveFormat.TEXT | |
txtOpts.pretty_format = True | |
srcDocument.save(filePath + "ExtractedText.txt", txtOpts); | |
print ("Document converted to TXT successfully") |
उदाहरण पायथन में DOCX को TXT में बदलने की एपीआई क्षमता प्रदर्शित करता है। TxtSaveOptions क्लास इंस्टेंस का उपयोग करना वैकल्पिक है और आप डिफ़ॉल्ट विकल्पों का उपयोग करके TXT फ़ाइल को सहेज सकते हैं। हालाँकि, यदि आप आउटपुट TXT फ़ाइल को कस्टमाइज़ करना चाहते हैं, तो आप TxtSaveOptions क्लास द्वारा उजागर किए गए विभिन्न गुणों का उपयोग कर सकते हैं, जिनमें एन्कोडिंग, फोर्स_पेज_ब्रेक्स, मैक्स_कैरेक्टर्स_पर_लाइन, पैराग्राफ_ब्रेक और प्रीटी_फॉर्मेट सेट करना शामिल है।
इस लेख में, हमने सीखा है कि DOCX से टेक्स्ट निकालने के लिए Python आधारित API एक अच्छा विकल्प हो सकता है। यदि आप पीडीएफ दस्तावेज़ों की तुलना करना सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ दस्तावेज़ों की तुलना करें पर लेख देखें।