Cara Mengekstrak Teks dari Scan PDF di C#

Tutorial langkah demi langkah ini menunjukkan cara mengekstrak teks dari PDF yang dipindai di C#. Saat Anda memindai dokumen ke dalam PDF, halaman tersebut ditambahkan sebagai gambar pindaian di dalam file PDF. Jadi untuk mengekstrak teks dari file PDF yang dipindai, Anda sebenarnya harus mengekstrak teks dari gambar dalam PDF dalam C# dengan menerapkan Optical Character Recognition (OCR).

Langkah-langkah untuk Mengekstrak Teks dari Scan PDF di C#

  1. Dapatkan Aspose.OCR for .NET dari manajer paket NuGet.org
  2. Tambahkan referensi ke Aspose.OCR namespace
  3. Terapkan kode lisensi menggunakan metode SetLicense
  4. Memulai sebuah instance dari AsposeOcr Class
  5. Tentukan setelan pengenalan menggunakan DocumentRecognitionSettings class
  6. Ekstrak semua halaman PDF menggunakan metode RecognizePDF
  7. Dapatkan teks dari setiap halaman PDF menggunakan properti RecognitionText

Dengan bantuan langkah-langkah di atas, Anda dapat membaca teks dari PDF yang dipindai dalam C# dengan cepat dan mudah. Sebelumnya, kami menunjukkan cara Ekstrak Teks Dari Gambar di C#. Namun, contoh ini membantu Anda mendapatkan teks dari PDF dalam C#.

Kode untuk Mengekstrak Teks dari PDF yang Dipindai di C#

C# mendapatkan teks dari contoh PDF di atas sederhana dan mudah dimengerti. Kami hanya membaca file PDF yang dipindai dan kemudian mengekstraksi teks dari setiap halaman. Namun, satu poin penting untuk dipahami di sini adalah properti DetectArea. Jika Anda menyetelnya ke true maka itu akan memberi Anda lebih banyak akurasi tetapi akan mengurangi kecepatan pemrosesan PDF. Namun, dengan menyetelnya ke false, kecepatannya akan meningkat dan akurasinya mungkin sedikit berkurang. Jadi, Anda harus memilih di antara dua opsi berdasarkan situasi Anda.

 Indonesian