यह त्वरित ट्यूटोरियल बताता है कि Python का उपयोग करके PDF को Text में कैसे बदलें। इसमें PDF से टेक्स्ट Python-आधारित रूपांतरण करने के लिए एक नमूना कोड के साथ सिस्टम कॉन्फ़िगरेशन विवरण और चरण-वार प्रक्रिया शामिल है। इसके अलावा, आप अपनी आवश्यकताओं के अनुसार निकाले गए पाठ को फ़ाइल या कंसोल पर लिख सकते हैं।
पायथन में पीडीएफ को टेक्स्ट में बदलने के चरण
- .NET के माध्यम से पायथन के लिए Aspose.PDF लाइब्रेरी स्थापित करके सिस्टम को कॉन्फ़िगर करें
- स्रोत PDF फ़ाइल को टेक्स्ट फ़ाइल में बदलने के लिए Document वर्ग का उपयोग करके लोड करें
- Page.Accept() मेथड से टेक्स्ट लाने के लिए एक TextAbsorber क्लास ऑब्जेक्ट बनाएं
- एक टेक्स्ट फाइल बनाएं और फाइल में आउटपुट टेक्स्ट स्ट्रिंग लिखें
ये चरण सारांशित करते हैं कि कैसे Python PDF to TXT का उपयोग करके कुछ API कॉल के साथ रूपांतरण किया जा सकता है। पहले चरण में, इनपुट पीडीएफ फाइल को लोड करें और टेक्स्टएब्जॉर्बर के एक ऑब्जेक्ट को इनिशियलाइज़ करें जिसका उपयोग पृष्ठों से टेक्स्ट लाने के लिए किया जा सकता है। फिर आपको फ़ाइल पथ और नाम निर्दिष्ट करते हुए निकाले गए पाठ को प्राप्त करने और इसे एक TXT फ़ाइल में लिखने की आवश्यकता है।
पायथन में पीडीएफ को टेक्स्ट में बदलने के लिए कोड
यह कोड स्निपेट दिखाता है कि पायथन* का उपयोग करके *PDF से टेक्स्ट कन्वर्टर कैसे बनाया जाता है। यह दस्तावेज़ वर्ग का उपयोग कर स्रोत पीडीएफ दस्तावेज़ लोड करता है। इसके बाद, आप PDF फ़ाइल के सभी पृष्ठों से स्वीकार विधि के साथ पाठ प्राप्त कर सकते हैं या पृष्ठ संख्या निर्दिष्ट करके किसी विशिष्ट पृष्ठ से पाठ स्ट्रिंग पढ़ सकते हैं। अंत में, टेक्स्ट स्ट्रिंग को फ़ाइल में लिखें और टेक्स्ट फ़ाइल को डिस्क पर निर्यात करें।
इस लेख में, हमने सीखा है कि कैसे Python PDF to Text रेंडरिंग का उपयोग आपके एप्लिकेशन के साथ किया जा सकता है। हालांकि, अगर आप पीडीएफ से वर्ड रूपांतरण सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ को वर्ड में कैसे बदलें पर ट्यूटोरियल पढ़ें।