यह चरण-दर-चरण ट्यूटोरियल आपको दिखाता है कि स्कैन किए गए PDF से C# में टेक्स्ट कैसे निकाला जाए। जब आप दस्तावेज़ों को PDF में स्कैन करते हैं, तो वे पृष्ठ PDF फ़ाइल के अंदर स्कैन की गई छवियों के रूप में जुड़ जाते हैं। इसलिए स्कैन की गई पीडीएफ फाइल से टेक्स्ट निकालने के लिए, आपको वास्तव में ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) लागू करके सी # में पीडीएफ में छवियों से टेक्स्ट निकालना होगा।
सी#में स्कैन किए गए पीडीएफ से टेक्स्ट निकालने के लिए कदम
- NuGet.org पैकेज मैनेजर से Aspose.OCR for .NET प्राप्त करें
- Aspose.OCR namespace का संदर्भ जोड़ें
- SetLicense विधि का उपयोग करके लाइसेंस कोड लागू करें
- AsposeOcr Class का एक उदाहरण आरंभ करें
- DocumentRecognitionSettings class का उपयोग करके पहचान सेटिंग निर्दिष्ट करें
- RecognizePDF विधि का उपयोग करके सभी PDF पृष्ठ निकालें
- रिकॉग्निशन टेक्स्ट प्रॉपर्टी का उपयोग करके प्रत्येक पीडीएफ पेज से टेक्स्ट प्राप्त करें
उपरोक्त चरणों की सहायता से, आप स्कैन किए गए PDF से C# में पाठ को जल्दी और आसानी से पढ़ सकते हैं। इससे पहले, हमने आपको सी # में छवि से पाठ निकालें करने का तरीका दिखाया था। हालांकि, यह उदाहरण आपको पीडीएफ से सी # में टेक्स्ट प्राप्त करने में मदद करता है।
सी # में स्कैन किए गए पीडीएफ से टेक्स्ट निकालने के लिए कोड
using System; | |
using System.Collections.Generic; | |
//Use following namespace to extract text from scanned PDF | |
using Aspose.OCR; | |
namespace ExtractTextFromScannedPDFFile | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
//Set license before extracting text from scanned PDF file | |
Aspose.OCR.License AsposeOCRLicense = new Aspose.OCR.License(); | |
AsposeOCRLicense.SetLicense(@"c:\asposelicense\license.lic"); | |
//create AsposeOcr object | |
AsposeOcr ScannedPDFFile = new AsposeOcr(); | |
//set recognition settings | |
DocumentRecognitionSettings RecognitionSettings = new DocumentRecognitionSettings(); | |
RecognitionSettings.StartPage = 1; | |
RecognitionSettings.PagesNumber = 3; | |
//when set true, improves accuracy but reduces speed | |
RecognitionSettings.DetectAreas = false; | |
//extract text from specified pages | |
List<RecognitionResult> ExtractedResults = ScannedPDFFile.RecognizePdf("InputScannedPDFFile.pdf", RecognitionSettings); | |
//fetch extracted text of each page | |
int PageCounter = 1; | |
foreach(RecognitionResult SinglePage in ExtractedResults) | |
{ | |
Console.WriteLine("Page: {0}, Extracted Text:{1}", PageCounter, SinglePage.RecognitionText); | |
PageCounter++; | |
} | |
} | |
} | |
} |
उपरोक्त सी # पीडीएफ उदाहरण से टेक्स्ट प्राप्त करें सरल और समझने में आसान है। हम बस एक स्कैन की हुई पीडीएफ फाइल पढ़ रहे हैं और फिर प्रत्येक पेज से टेक्स्ट निकाल रहे हैं। हालांकि, यहां समझने के लिए एक महत्वपूर्ण बिंदु डिटेक्टएरिया संपत्ति है। यदि आप इसे सही पर सेट करते हैं तो यह आपको अधिक सटीकता प्रदान करेगा लेकिन पीडीएफ को संसाधित करने की गति को कम करेगा। हालांकि, इसे गलत पर सेट करने से, गति में सुधार होगा और सटीकता थोड़ी कम हो सकती है। इसलिए आपको अपनी स्थिति के आधार पर दो विकल्पों में से एक को चुनना होगा।