इस गाइड में पायथन का उपयोग करके PDF से टेक्स्ट निकालने के तरीके के बारे में जानकारी दी गई है। इसमें वातावरण सेट करने के लिए सभी विवरण, चरणों की सूची और पायथन का उपयोग करके कुछ API कॉल के साथ पीडीएफ से टेक्स्ट रिप करने के लिए एक नमूना कोड है। आप एक या एक से अधिक पीडीएफ फाइलों से डेटा पढ़ना और इस प्रक्रिया से लौटाए गए टेक्स्ट को प्रदर्शित करना सीखेंगे।
पायथन का उपयोग करके पीडीएफ से टेक्स्ट प्राप्त करने के चरण
- PDF पढ़ने के लिए Aspose.OCR for Python via .NET का उपयोग करने हेतु वातावरण सेट करें
- PDF से टेक्स्ट रिप करने के लिए AsposeOcr ऑब्जेक्ट बनाएँ
- OcrInput क्लास ऑब्जेक्ट बनाएं और इनपुट प्रकार को PDF पर सेट करें
- इनपुट संग्रह में PDF फ़ाइलें जोड़ें
- पीडीएफ संग्रह से डेटा पढ़ने के लिए recognise() विधि को कॉल करें
- लौटाए गए संग्रह से मान्यता पाठ प्रदर्शित करें
ये चरण Python का उपयोग करके PDF दस्तावेज़ से टेक्स्ट निकालने की प्रक्रिया को सारांशित करते हैं। AsposeOcr क्लास ऑब्जेक्ट बनाएँ जिसमें PDF और कई अन्य प्रारूपों से टेक्स्ट पहचानने के तरीके शामिल हों। इनपुट प्रकार को PDF पर सेट करने और PDF फ़ाइलों के इनपुट संग्रह को जोड़ने के लिए OcrInput क्लास ऑब्जेक्ट का उपयोग करें। अंत में, recognise() विधि को कॉल करें और लौटाए गए टेक्स्ट को प्रदर्शित करें।
पायथन का उपयोग करके पीडीएफ से टेक्स्ट निकालने का कोड
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
यह कोड Python का उपयोग करके PDF OCR रीडर के विकास को दर्शाता है। AsposeOcr क्लास में पहचान प्रक्रिया को अनुकूलित करने के लिए कई गुण और विधियाँ शामिल हैं जैसे कि आप तिरछापन की गणना कर सकते हैं, पता लगाए गए पाठ में वर्तनी को सही कर सकते हैं और आयत का पता लगा सकते हैं। यदि आप कई PDF फ़ाइलें जोड़ते हैं, तो PDF से सभी पाठ स्ट्रिंग्स के संग्रह के रूप में लौटाए जाते हैं जिन्हें लौटाए गए संग्रह को पुनरावृत्त करके प्रदर्शित किया जा सकता है।
इस लेख में हमें PDF से टेक्स्ट निकालने की प्रक्रिया सिखाई गई है। छवियों से टेक्स्ट निकालने के लिए, पायथन का उपयोग करके छवि से पाठ निकालें पर लेख देखें।