Bu adım adım öğretici, C# ile taranan PDF metinden nasıl çıkarılacağını gösterir. Belgeleri bir PDF’ye taradığınızda, bu sayfalar PDF dosyasının içine taranan resimler olarak eklenir. Bu nedenle, taranan PDF dosyasından metin çıkarmak için, Optik Karakter Tanıma (OCR) uygulayarak C#‘da PDF’deki görüntülerden metin çıkarmanız gerekir.
C# ile Taranan PDF’den Metin Çıkarma Adımları
- NuGet.org paket yöneticisinden Aspose.OCR for .NET alın
- Aspose.OCR namespace için referans ekleyin
- SetLicense yöntemini kullanarak lisans kodunu uygulayın
- AsposeOcr Class’ın bir örneğini başlatın
- DocumentRecognitionSettings class kullanarak tanıma ayarlarını belirtin
- RecognizePDF yöntemini kullanarak tüm PDF sayfalarını çıkarın
- RecognitionText özelliğini kullanarak her PDF sayfasından metin alın
Yukarıdaki adımların yardımıyla, taranan PDF’deki metni C# ile hızlı ve kolay bir şekilde okuyabilirsiniz. Daha önce size nasıl C# ile Görüntüden Metin Çıkarma yapacağınızı gösterdik. Ancak bu örnek, C#’ta PDF’den metin almanıza yardımcı olur.
C# ile Taranan PDF’den Metin Çıkarma Kodu
Yukarıdaki C#, PDF örneğinden metin almak basit ve anlaşılması kolaydır. Biz sadece taranmış bir PDF dosyasını okuyoruz ve ardından her sayfadan metin çıkarıyoruz. Ancak burada anlaşılması gereken önemli bir nokta DetectArea özelliğidir. Bunu true olarak ayarlarsanız size daha fazla doğruluk sağlar ancak PDF’yi işleme hızını düşürür. Ancak, false olarak ayarlandığında hız artacak ve doğruluk biraz düşebilir. Bu nedenle, durumunuza göre iki seçenek arasında seçim yapmalısınız.