Cách trích xuất văn bản từ PDF được quét trong C#

Hướng dẫn từng bước này chỉ cho bạn cách trích xuất văn bản từ PDF được quét trong C#. Khi bạn quét tài liệu thành PDF, các trang đó sẽ được thêm dưới dạng hình ảnh được quét bên trong tệp PDF. Vì vậy, để trích xuất văn bản từ tệp PDF được quét, bạn thực sự sẽ phải trích xuất văn bản từ hình ảnh trong PDF bằng C# bằng cách áp dụng Nhận dạng ký tự quang học (OCR).

Các bước để trích xuất văn bản từ PDF được quét trong C#

  1. Nhận Aspose.OCR for .NET từ trình quản lý gói NuGet.org
  2. Thêm tham chiếu đến Aspose.OCR namespace
  3. Áp dụng mã giấy phép bằng phương pháp SetLicense
  4. Khởi tạo một thể hiện của Lớp AsposeOcr
  5. Chỉ định cài đặt nhận dạng bằng DocumentRecognitionSettings class
  6. Trích xuất tất cả các trang PDF bằng phương pháp RecognizePDF
  7. Nhận văn bản từ mỗi trang PDF bằng thuộc tính RecognitionText

Với sự trợ giúp của các bước trên, bạn có thể đọc văn bản từ tệp PDF được quét bằng C# một cách nhanh chóng và dễ dàng. Trước đó, chúng tôi đã chỉ cho bạn cách Trích xuất văn bản từ hình ảnh trong C#. Tuy nhiên, ví dụ này giúp bạn lấy văn bản từ PDF trong C#.

Mã để trích xuất văn bản từ PDF được quét trong C#

Ví dụ C# lấy văn bản từ PDF ở trên rất đơn giản và dễ hiểu. Chúng tôi chỉ đơn giản là đọc một tệp PDF được quét và sau đó trích xuất văn bản từ mỗi trang. Tuy nhiên, một điểm quan trọng cần hiểu ở đây là thuộc tính DetectArea. Nếu bạn đặt nó thành true thì nó sẽ cung cấp cho bạn độ chính xác cao hơn nhưng sẽ làm giảm tốc độ xử lý tệp PDF. Tuy nhiên, bằng cách đặt nó thành false, tốc độ sẽ được cải thiện và độ chính xác có thể giảm đi một chút. Vì vậy, bạn phải chọn giữa hai tùy chọn dựa trên tình huống của mình.

 Tiếng Việt