Hướng dẫn từng bước này chỉ cho bạn cách trích xuất văn bản từ PDF được quét trong C#. Khi bạn quét tài liệu thành PDF, các trang đó sẽ được thêm dưới dạng hình ảnh được quét bên trong tệp PDF. Vì vậy, để trích xuất văn bản từ tệp PDF được quét, bạn thực sự sẽ phải trích xuất văn bản từ hình ảnh trong PDF bằng C# bằng cách áp dụng Nhận dạng ký tự quang học (OCR).

Các bước để trích xuất văn bản từ PDF được quét trong C#

Nhận Aspose.OCR for .NET từ trình quản lý gói NuGet.org
Thêm tham chiếu đến Aspose.OCR namespace
Áp dụng mã giấy phép bằng phương pháp SetLicense
Khởi tạo một thể hiện của Lớp AsposeOcr
Chỉ định cài đặt nhận dạng bằng DocumentRecognitionSettings class
Trích xuất tất cả các trang PDF bằng phương pháp RecognizePDF
Nhận văn bản từ mỗi trang PDF bằng thuộc tính RecognitionText

Với sự trợ giúp của các bước trên, bạn có thể đọc văn bản từ tệp PDF được quét bằng C# một cách nhanh chóng và dễ dàng. Trước đó, chúng tôi đã chỉ cho bạn cách Trích xuất văn bản từ hình ảnh trong C#. Tuy nhiên, ví dụ này giúp bạn lấy văn bản từ PDF trong C#.

Mã để trích xuất văn bản từ PDF được quét trong C#

Ví dụ C# lấy văn bản từ PDF ở trên rất đơn giản và dễ hiểu. Chúng tôi chỉ đơn giản là đọc một tệp PDF được quét và sau đó trích xuất văn bản từ mỗi trang. Tuy nhiên, một điểm quan trọng cần hiểu ở đây là thuộc tính DetectArea. Nếu bạn đặt nó thành true thì nó sẽ cung cấp cho bạn độ chính xác cao hơn nhưng sẽ làm giảm tốc độ xử lý tệp PDF. Tuy nhiên, bằng cách đặt nó thành false, tốc độ sẽ được cải thiện và độ chính xác có thể giảm đi một chút. Vì vậy, bạn phải chọn giữa hai tùy chọn dựa trên tình huống của mình.

Cơ sở tri thức Aspose

Tìm câu trả lời bằng API

Cách trích xuất văn bản từ PDF được quét trong C#

Các bước để trích xuất văn bản từ PDF được quét trong C#

Mã để trích xuất văn bản từ PDF được quét trong C#