पायथन का उपयोग करके पीडीएफ से टेक्स्ट निकालें

इस गाइड में पायथन का उपयोग करके PDF से टेक्स्ट निकालने के तरीके के बारे में जानकारी दी गई है। इसमें वातावरण सेट करने के लिए सभी विवरण, चरणों की सूची और पायथन का उपयोग करके कुछ API कॉल के साथ पीडीएफ से टेक्स्ट रिप करने के लिए एक नमूना कोड है। आप एक या एक से अधिक पीडीएफ फाइलों से डेटा पढ़ना और इस प्रक्रिया से लौटाए गए टेक्स्ट को प्रदर्शित करना सीखेंगे।

पायथन का उपयोग करके पीडीएफ से टेक्स्ट प्राप्त करने के चरण

  1. PDF पढ़ने के लिए Aspose.OCR for Python via .NET का उपयोग करने हेतु वातावरण सेट करें
  2. PDF से टेक्स्ट रिप करने के लिए AsposeOcr ऑब्जेक्ट बनाएँ
  3. OcrInput क्लास ऑब्जेक्ट बनाएं और इनपुट प्रकार को PDF पर सेट करें
  4. इनपुट संग्रह में PDF फ़ाइलें जोड़ें
  5. पीडीएफ संग्रह से डेटा पढ़ने के लिए recognise() विधि को कॉल करें
  6. लौटाए गए संग्रह से मान्यता पाठ प्रदर्शित करें

ये चरण Python का उपयोग करके PDF दस्तावेज़ से टेक्स्ट निकालने की प्रक्रिया को सारांशित करते हैं। AsposeOcr क्लास ऑब्जेक्ट बनाएँ जिसमें PDF और कई अन्य प्रारूपों से टेक्स्ट पहचानने के तरीके शामिल हों। इनपुट प्रकार को PDF पर सेट करने और PDF फ़ाइलों के इनपुट संग्रह को जोड़ने के लिए OcrInput क्लास ऑब्जेक्ट का उपयोग करें। अंत में, recognise() विधि को कॉल करें और लौटाए गए टेक्स्ट को प्रदर्शित करें।

पायथन का उपयोग करके पीडीएफ से टेक्स्ट निकालने का कोड

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

यह कोड Python का उपयोग करके PDF OCR रीडर के विकास को दर्शाता है। AsposeOcr क्लास में पहचान प्रक्रिया को अनुकूलित करने के लिए कई गुण और विधियाँ शामिल हैं जैसे कि आप तिरछापन की गणना कर सकते हैं, पता लगाए गए पाठ में वर्तनी को सही कर सकते हैं और आयत का पता लगा सकते हैं। यदि आप कई PDF फ़ाइलें जोड़ते हैं, तो PDF से सभी पाठ स्ट्रिंग्स के संग्रह के रूप में लौटाए जाते हैं जिन्हें लौटाए गए संग्रह को पुनरावृत्त करके प्रदर्शित किया जा सकता है।

इस लेख में हमें PDF से टेक्स्ट निकालने की प्रक्रिया सिखाई गई है। छवियों से टेक्स्ट निकालने के लिए, पायथन का उपयोग करके छवि से पाठ निकालें पर लेख देखें।

 हिन्दी