यह चरण-दर-चरण ट्यूटोरियल आपको दिखाता है कि स्कैन किए गए PDF से C# में टेक्स्ट कैसे निकाला जाए। जब आप दस्तावेज़ों को PDF में स्कैन करते हैं, तो वे पृष्ठ PDF फ़ाइल के अंदर स्कैन की गई छवियों के रूप में जुड़ जाते हैं। इसलिए स्कैन की गई पीडीएफ फाइल से टेक्स्ट निकालने के लिए, आपको वास्तव में ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) लागू करके सी # में पीडीएफ में छवियों से टेक्स्ट निकालना होगा।
सी#में स्कैन किए गए पीडीएफ से टेक्स्ट निकालने के लिए कदम
- NuGet.org पैकेज मैनेजर से Aspose.OCR for .NET प्राप्त करें
- Aspose.OCR namespace का संदर्भ जोड़ें
- SetLicense विधि का उपयोग करके लाइसेंस कोड लागू करें
- AsposeOcr Class का एक उदाहरण आरंभ करें
- DocumentRecognitionSettings class का उपयोग करके पहचान सेटिंग निर्दिष्ट करें
- RecognizePDF विधि का उपयोग करके सभी PDF पृष्ठ निकालें
- रिकॉग्निशन टेक्स्ट प्रॉपर्टी का उपयोग करके प्रत्येक पीडीएफ पेज से टेक्स्ट प्राप्त करें
उपरोक्त चरणों की सहायता से, आप स्कैन किए गए PDF से C# में पाठ को जल्दी और आसानी से पढ़ सकते हैं। इससे पहले, हमने आपको सी # में छवि से पाठ निकालें करने का तरीका दिखाया था। हालांकि, यह उदाहरण आपको पीडीएफ से सी # में टेक्स्ट प्राप्त करने में मदद करता है।
सी # में स्कैन किए गए पीडीएफ से टेक्स्ट निकालने के लिए कोड
उपरोक्त सी # पीडीएफ उदाहरण से टेक्स्ट प्राप्त करें सरल और समझने में आसान है। हम बस एक स्कैन की हुई पीडीएफ फाइल पढ़ रहे हैं और फिर प्रत्येक पेज से टेक्स्ट निकाल रहे हैं। हालांकि, यहां समझने के लिए एक महत्वपूर्ण बिंदु डिटेक्टएरिया संपत्ति है। यदि आप इसे सही पर सेट करते हैं तो यह आपको अधिक सटीकता प्रदान करेगा लेकिन पीडीएफ को संसाधित करने की गति को कम करेगा। हालांकि, इसे गलत पर सेट करने से, गति में सुधार होगा और सटीकता थोड़ी कम हो सकती है। इसलिए आपको अपनी स्थिति के आधार पर दो विकल्पों में से एक को चुनना होगा।