पायथन में वर्ड डॉक्यूमेंट से टेक्स्ट निकालें

इस उदाहरण का उपयोग करके, आप सीखेंगे कि पायथन में वर्ड दस्तावेज़ से Text कैसे निकालें। यह चरण-दर-चरण वर्कफ़्लो का पालन करके विकास वातावरण को कॉन्फ़िगर करने की जानकारी भी प्रदान करता है, और पायथन** का उपयोग करके **Word से TXT कनवर्टर विकसित करने के लिए एक उदाहरण कोड भी प्रदान करता है। इस एप्लिकेशन को विंडोज़, लिनक्स या मैकओएस में पायथन और .NET फ्रेमवर्क का समर्थन करने वाले किसी भी वातावरण में एकीकृत किया जा सकता है।

पायथन में वर्ड डॉक्यूमेंट से टेक्स्ट निकालने के चरण

  1. Python का उपयोग करके DOCX फ़ाइल को TXT फ़ाइल में बदलने के लिए .NET के माध्यम से पायथन के लिए Aspose.Words इंस्टॉल करके वातावरण स्थापित करें
  2. Document वर्ग के उदाहरण का उपयोग करके, स्रोत Word DOCX फ़ाइल तक पहुँचें
  3. आवश्यक गुण सेट करने के लिए TxtSaveOptions क्लास ऑब्जेक्ट इंस्टेंस का उपयोग करें
  4. सेव विधि का उपयोग करके लोड किए गए वर्ड दस्तावेज़ को TXT फ़ाइल में कनवर्ट करें

पायथन में ये सटीक चरण एक बहुत ही सरल एपीआई इंटरफ़ेस का उपयोग करके DOCX फ़ाइल से टेक्स्ट निकालते हैं। प्रक्रिया दस्तावेज़ वर्ग के उदाहरण का उपयोग करके डिस्क से स्रोत DOCX फ़ाइल तक पहुँचने से शुरू होगी, जिसके बाद TxtSaveOptions वर्ग ऑब्जेक्ट का उपयोग करके वांछित आउटपुट TXT फ़ाइल गुणों को सेट किया जाएगा। अंत में, लोड की गई Word दस्तावेज़ फ़ाइल को सेव विधि का उपयोग करके डिस्क पर TXT फ़ाइल के रूप में सहेजा जाता है।

पायथन में DOCX को TXT में बदलने के लिए कोड

import aspose.words as aw
import io
# Path to the source files
filePath = "Y:////KB//TestData//"
# Load the Aspose.Words license in your application to convert DOCX to TXT
wordtoTxtLicense = aw.License()
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
# Use the Document class object to access the source DOCX file
srcDocument = aw.Document(filePath + "Test1.docx")
#Optional Text saving options
txtOpts = aw.saving.TxtSaveOptions()
txtOpts.max_characters_per_line = 100
txtOpts.save_format = aw.SaveFormat.TEXT
txtOpts.pretty_format = True
srcDocument.save(filePath + "ExtractedText.txt", txtOpts);
print ("Document converted to TXT successfully")

उदाहरण पायथन में DOCX को TXT में बदलने की एपीआई क्षमता प्रदर्शित करता है। TxtSaveOptions क्लास इंस्टेंस का उपयोग करना वैकल्पिक है और आप डिफ़ॉल्ट विकल्पों का उपयोग करके TXT फ़ाइल को सहेज सकते हैं। हालाँकि, यदि आप आउटपुट TXT फ़ाइल को कस्टमाइज़ करना चाहते हैं, तो आप TxtSaveOptions क्लास द्वारा उजागर किए गए विभिन्न गुणों का उपयोग कर सकते हैं, जिनमें एन्कोडिंग, फोर्स_पेज_ब्रेक्स, मैक्स_कैरेक्टर्स_पर_लाइन, पैराग्राफ_ब्रेक और प्रीटी_फॉर्मेट सेट करना शामिल है।

इस लेख में, हमने सीखा है कि DOCX से टेक्स्ट निकालने के लिए Python आधारित API एक अच्छा विकल्प हो सकता है। यदि आप पीडीएफ दस्तावेज़ों की तुलना करना सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ दस्तावेज़ों की तुलना करें पर लेख देखें।

 हिन्दी