सी # में स्कैन किए गए पीडीएफ से टेक्स्ट कैसे निकालें

यह चरण-दर-चरण ट्यूटोरियल आपको दिखाता है कि स्कैन किए गए PDF से C# में टेक्स्ट कैसे निकाला जाए। जब आप दस्तावेज़ों को PDF में स्कैन करते हैं, तो वे पृष्ठ PDF फ़ाइल के अंदर स्कैन की गई छवियों के रूप में जुड़ जाते हैं। इसलिए स्कैन की गई पीडीएफ फाइल से टेक्स्ट निकालने के लिए, आपको वास्तव में ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) लागू करके सी # में पीडीएफ में छवियों से टेक्स्ट निकालना होगा।

सी#में स्कैन किए गए पीडीएफ से टेक्स्ट निकालने के लिए कदम

  1. NuGet.org पैकेज मैनेजर से Aspose.OCR for .NET प्राप्त करें
  2. Aspose.OCR namespace का संदर्भ जोड़ें
  3. SetLicense विधि का उपयोग करके लाइसेंस कोड लागू करें
  4. AsposeOcr Class का एक उदाहरण आरंभ करें
  5. DocumentRecognitionSettings class का उपयोग करके पहचान सेटिंग निर्दिष्ट करें
  6. RecognizePDF विधि का उपयोग करके सभी PDF पृष्ठ निकालें
  7. रिकॉग्निशन टेक्स्ट प्रॉपर्टी का उपयोग करके प्रत्येक पीडीएफ पेज से टेक्स्ट प्राप्त करें

उपरोक्त चरणों की सहायता से, आप स्कैन किए गए PDF से C# में पाठ को जल्दी और आसानी से पढ़ सकते हैं। इससे पहले, हमने आपको सी # में छवि से पाठ निकालें करने का तरीका दिखाया था। हालांकि, यह उदाहरण आपको पीडीएफ से सी # में टेक्स्ट प्राप्त करने में मदद करता है।

सी # में स्कैन किए गए पीडीएफ से टेक्स्ट निकालने के लिए कोड

using System;
using System.Collections.Generic;
//Use following namespace to extract text from scanned PDF
using Aspose.OCR;
namespace ExtractTextFromScannedPDFFile
{
class Program
{
static void Main(string[] args)
{
//Set license before extracting text from scanned PDF file
Aspose.OCR.License AsposeOCRLicense = new Aspose.OCR.License();
AsposeOCRLicense.SetLicense(@"c:\asposelicense\license.lic");
//create AsposeOcr object
AsposeOcr ScannedPDFFile = new AsposeOcr();
//set recognition settings
DocumentRecognitionSettings RecognitionSettings = new DocumentRecognitionSettings();
RecognitionSettings.StartPage = 1;
RecognitionSettings.PagesNumber = 3;
//when set true, improves accuracy but reduces speed
RecognitionSettings.DetectAreas = false;
//extract text from specified pages
List<RecognitionResult> ExtractedResults = ScannedPDFFile.RecognizePdf("InputScannedPDFFile.pdf", RecognitionSettings);
//fetch extracted text of each page
int PageCounter = 1;
foreach(RecognitionResult SinglePage in ExtractedResults)
{
Console.WriteLine("Page: {0}, Extracted Text:{1}", PageCounter, SinglePage.RecognitionText);
PageCounter++;
}
}
}
}

उपरोक्त सी # पीडीएफ उदाहरण से टेक्स्ट प्राप्त करें सरल और समझने में आसान है। हम बस एक स्कैन की हुई पीडीएफ फाइल पढ़ रहे हैं और फिर प्रत्येक पेज से टेक्स्ट निकाल रहे हैं। हालांकि, यहां समझने के लिए एक महत्वपूर्ण बिंदु डिटेक्टएरिया संपत्ति है। यदि आप इसे सही पर सेट करते हैं तो यह आपको अधिक सटीकता प्रदान करेगा लेकिन पीडीएफ को संसाधित करने की गति को कम करेगा। हालांकि, इसे गलत पर सेट करने से, गति में सुधार होगा और सटीकता थोड़ी कम हो सकती है। इसलिए आपको अपनी स्थिति के आधार पर दो विकल्पों में से एक को चुनना होगा।

 हिन्दी