วิธีแยกข้อความจาก PDF ที่สแกนใน C#

บทช่วยสอนทีละขั้นตอนนี้แสดงวิธีแยกข้อความจากการสแกน PDF ใน C# เมื่อคุณสแกนเอกสารเป็น PDF หน้าเหล่านั้นจะถูกเพิ่มเป็นภาพที่สแกนภายในไฟล์ PDF ดังนั้น ในการดึงข้อความจากไฟล์ PDF ที่สแกน คุณจะต้องแยกข้อความจากรูปภาพใน PDF ใน C# โดยใช้ Optical Character Recognition (OCR)

ขั้นตอนในการแยกข้อความจาก PDF ที่สแกนใน C#

  1. รับ Aspose.OCR for .NET จาก NuGet.org package manager
  2. เพิ่มการอ้างอิงถึง Aspose.OCR namespace
  3. ใช้รหัสใบอนุญาตโดยใช้วิธี SetLicense
  4. เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
  5. ระบุการตั้งค่าการรับรู้โดยใช้ DocumentRecognitionSettings class
  6. แยกหน้า PDF ทั้งหมดโดยใช้วิธีการ RecognizePDF
  7. รับข้อความจากแต่ละหน้า PDF โดยใช้คุณสมบัติ RecognitionText

ด้วยความช่วยเหลือของขั้นตอนข้างต้น คุณสามารถอ่านข้อความจาก PDF ที่สแกนใน C# ได้อย่างรวดเร็วและง่ายดาย ก่อนหน้านี้ เราได้แสดงวิธีการ แยกข้อความจากรูปภาพใน C # อย่างไรก็ตาม ตัวอย่างนี้ช่วยให้คุณรับข้อความจาก PDF ใน C#

รหัสเพื่อแยกข้อความจาก PDF ที่สแกนใน C

C# รับข้อความจากตัวอย่าง PDF ข้างต้นนั้นเรียบง่ายและเข้าใจง่าย เรากำลังอ่านไฟล์ PDF ที่สแกนแล้วแยกข้อความจากแต่ละหน้า อย่างไรก็ตาม ประเด็นสำคัญประการหนึ่งที่ต้องทำความเข้าใจในที่นี้คือคุณสมบัติ DetectArea หากคุณตั้งค่าเป็นจริง จะให้ความแม่นยำมากขึ้น แต่จะลดความเร็วในการประมวลผล PDF อย่างไรก็ตาม หากตั้งค่าเป็น False ความเร็วจะดีขึ้นและความแม่นยำอาจลดลงเล็กน้อย ดังนั้นคุณต้องเลือกระหว่างสองตัวเลือกตามสถานการณ์ของคุณ

 ไทย