บทช่วยสอนทีละขั้นตอนนี้แสดงวิธีแยกข้อความจากการสแกน PDF ใน C# เมื่อคุณสแกนเอกสารเป็น PDF หน้าเหล่านั้นจะถูกเพิ่มเป็นภาพที่สแกนภายในไฟล์ PDF ดังนั้น ในการดึงข้อความจากไฟล์ PDF ที่สแกน คุณจะต้องแยกข้อความจากรูปภาพใน PDF ใน C# โดยใช้ Optical Character Recognition (OCR)
ขั้นตอนในการแยกข้อความจาก PDF ที่สแกนใน C#
- รับ Aspose.OCR for .NET จาก NuGet.org package manager
- เพิ่มการอ้างอิงถึง Aspose.OCR namespace
- ใช้รหัสใบอนุญาตโดยใช้วิธี SetLicense
- เริ่มต้นอินสแตนซ์ของคลาส AsposeOcr
- ระบุการตั้งค่าการรับรู้โดยใช้ DocumentRecognitionSettings class
- แยกหน้า PDF ทั้งหมดโดยใช้วิธีการ RecognizePDF
- รับข้อความจากแต่ละหน้า PDF โดยใช้คุณสมบัติ RecognitionText
ด้วยความช่วยเหลือของขั้นตอนข้างต้น คุณสามารถอ่านข้อความจาก PDF ที่สแกนใน C# ได้อย่างรวดเร็วและง่ายดาย ก่อนหน้านี้ เราได้แสดงวิธีการ แยกข้อความจากรูปภาพใน C # อย่างไรก็ตาม ตัวอย่างนี้ช่วยให้คุณรับข้อความจาก PDF ใน C#
รหัสเพื่อแยกข้อความจาก PDF ที่สแกนใน C
C# รับข้อความจากตัวอย่าง PDF ข้างต้นนั้นเรียบง่ายและเข้าใจง่าย เรากำลังอ่านไฟล์ PDF ที่สแกนแล้วแยกข้อความจากแต่ละหน้า อย่างไรก็ตาม ประเด็นสำคัญประการหนึ่งที่ต้องทำความเข้าใจในที่นี้คือคุณสมบัติ DetectArea หากคุณตั้งค่าเป็นจริง จะให้ความแม่นยำมากขึ้น แต่จะลดความเร็วในการประมวลผล PDF อย่างไรก็ตาม หากตั้งค่าเป็น False ความเร็วจะดีขึ้นและความแม่นยำอาจลดลงเล็กน้อย ดังนั้นคุณต้องเลือกระหว่างสองตัวเลือกตามสถานการณ์ของคุณ