Cách chuyển đổi PDF thành tệp văn bản bằng C#

Hướng dẫn cơ bản này hướng dẫn bạn cách chuyển đổi tệp PDF thành tệp Văn bản bằng C# bao gồm cài đặt cấu hình và đoạn mã có thể chạy được. Nó minh họa cách sử dụng trình chuyển đổi C# PDF sang Văn bản có thể được tạo bằng một vài lệnh gọi API. Bạn chỉ cần tải tài liệu nguồn PDF và lưu tệp đầu ra Text.

Các bước để chuyển đổi PDF thành tệp văn bản bằng C#

  1. Thêm tham chiếu đến Aspose.PDF for .NET vào ứng dụng của bạn để chuyển đổi PDF thành tệp Văn bản
  2. Tải tệp PDF nguồn bằng phiên bản lớp Document để tạo tệp văn bản
  3. Tạo một thể hiện của lớp TextAbsorber và trích xuất văn bản từ tất cả các trang
  4. Lưu tệp văn bản đầu ra

Để viết cấu hình ứng dụng dựa trên PDF sang văn bản C# trong .NET framework và quy trình từng bước được cung cấp tại đây. Bước đầu tiên, hãy nhanh chóng định cấu hình API và tải tệp PDF đầu vào. Tiếp theo, chúng tôi tiến hành trích xuất văn bản từ tất cả các trang của nó và ghi văn bản đã trích xuất vào một tệp hoặc luồng theo yêu cầu.

Đoạn mã để chuyển đổi PDF thành văn bản bằng C#

Việc sử dụng tính năng C# convert PDF to Text có thể được tích hợp trong các ứng dụng của bạn cùng với khả năng kiểm soát việc đọc văn bản từ PDF nguồn giống như bạn có thể đọc văn bản từ tất cả các trang hoặc từ một trang cụ thể. Tương tự, nếu bạn muốn đọc văn bản từ một khu vực hình chữ nhật cụ thể trên trang PDF, bạn cũng có quyền tự do xác định khu vực hình chữ nhật đó. Các chế độ khác nhau cũng có thể được xác định để chuyển đổi PDF thành văn bản như Pure, Raw và MemorySaving.

Trong bài viết này, chúng ta đã học cách sử dụng mã PDF to Text C# trong các ứng dụng .NET của bạn. Tuy nhiên, nếu bạn muốn khám phá việc chuyển đổi tài liệu PDF sang HTML, hãy tham khảo bài viết trên cách chuyển đổi PDF sang HTML bằng C#.

 Tiếng Việt