บทช่วยสอนทีละขั้นตอนนี้แสดงวิธีแยกข้อความจากการสแกน PDF ใน C# เมื่อคุณสแกนเอกสารเป็น PDF หน้าเหล่านั้นจะถูกเพิ่มเป็นภาพที่สแกนภายในไฟล์ PDF ดังนั้น ในการดึงข้อความจากไฟล์ PDF ที่สแกน คุณจะต้องแยกข้อความจากรูปภาพใน PDF ใน C# โดยใช้ Optical Character Recognition (OCR)

ขั้นตอนในการแยกข้อความจาก PDF ที่สแกนใน C#

รับ Aspose.OCR for .NET จาก NuGet.org package manager
เพิ่มการอ้างอิงถึง Aspose.OCR namespace
ใช้รหัสใบอนุญาตโดยใช้วิธี SetLicense
เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
ระบุการตั้งค่าการรับรู้โดยใช้ DocumentRecognitionSettings class
แยกหน้า PDF ทั้งหมดโดยใช้วิธีการ RecognizePDF
รับข้อความจากแต่ละหน้า PDF โดยใช้คุณสมบัติ RecognitionText

ด้วยความช่วยเหลือของขั้นตอนข้างต้น คุณสามารถอ่านข้อความจาก PDF ที่สแกนใน C# ได้อย่างรวดเร็วและง่ายดาย ก่อนหน้านี้ เราได้แสดงวิธีการ แยกข้อความจากรูปภาพใน C # อย่างไรก็ตาม ตัวอย่างนี้ช่วยให้คุณรับข้อความจาก PDF ใน C#

รหัสเพื่อแยกข้อความจาก PDF ที่สแกนใน C

C# รับข้อความจากตัวอย่าง PDF ข้างต้นนั้นเรียบง่ายและเข้าใจง่าย เรากำลังอ่านไฟล์ PDF ที่สแกนแล้วแยกข้อความจากแต่ละหน้า อย่างไรก็ตาม ประเด็นสำคัญประการหนึ่งที่ต้องทำความเข้าใจในที่นี้คือคุณสมบัติ DetectArea หากคุณตั้งค่าเป็นจริง จะให้ความแม่นยำมากขึ้น แต่จะลดความเร็วในการประมวลผล PDF อย่างไรก็ตาม หากตั้งค่าเป็น False ความเร็วจะดีขึ้นและความแม่นยำอาจลดลงเล็กน้อย ดังนั้นคุณต้องเลือกระหว่างสองตัวเลือกตามสถานการณ์ของคุณ

Aspose ฐานความรู้

ค้นหาคำตอบโดย API

วิธีแยกข้อความจาก PDF ที่สแกนใน C#

ขั้นตอนในการแยกข้อความจาก PDF ที่สแกนใน C#

รหัสเพื่อแยกข้อความจาก PDF ที่สแกนใน C