Trích xuất phông chữ từ PDF bằng C#

Bài viết này giải thích cách trích xuất phông chữ từ PDF bằng C# để phân tích, chỉnh sửa và gỡ lỗi thêm. Nó sẽ cung cấp chi tiết về cách thiết lập IDE, danh sách các bước để phát triển ứng dụng và mã hoạt động để trích xuất phông chữ từ PDF Acrobat bằng C#. Bạn có thể truy cập và hiển thị tất cả các thuộc tính của phông chữ đã trích xuất và lưu nó vào đĩa nếu cần.

Các bước để trích xuất tệp phông chữ từ PDF bằng C#

  1. Thiết lập IDE để sử dụng Aspose.PDF để trích xuất phông chữ
  2. Tải tệp PDF nguồn bằng đối tượng lớp Document bằng cách đặt tên tệp PDF
  3. Lấy tất cả các phông chữ trong tệp PDF đã tải bằng lớp FontUtilities
  4. Lặp qua bộ sưu tập phông chữ
  5. Tạo một luồng bộ nhớ và lưu phông chữ đã trích xuất vào đĩa nếu cần
  6. Hiển thị các thuộc tính khác nhau của phông chữ trên bảng điều khiển

Các bước này giải thích cách trích xuất phông chữ từ tệp PDF bằng C#. Tải tệp PDF vào đối tượng lớp Document và nhận danh sách tất cả các phông chữ bằng lớp FontUtilities. Lặp qua tất cả các phông chữ trong danh sách, hiển thị các thuộc tính của chúng và lưu chúng vào một luồng bộ nhớ để tạo tệp phông chữ trên đĩa nếu cần.

Mã để trích xuất phông chữ từ tệp PDF bằng C#

// Create a new instance of the License class
var pdfLic = new License();
// Set the license using the provided license file ("license.lic").
pdfLic.SetLicense("license.lic");
// Open the PDF document
using (var document = new Aspose.Pdf.Document("Test.pdf"))
{
// Retrieve all fonts used in the PDF document
Aspose.Pdf.Text.Font[] fonts = document.FontUtilities.GetAllFonts();
// Iterate through each font in the fonts array.
foreach (Aspose.Pdf.Text.Font font in fonts)
{
// Create a MemoryStream to temporarily store the font data.
using (MemoryStream memoryStream = new MemoryStream())
{
// Save the font data into the MemoryStream.
font.Save(memoryStream);
// Write the font data from the MemoryStream to a .TTF file.
// The file is named after the font's name.
File.WriteAllBytes($"{font.FontName}.TTF", memoryStream.ToArray());
// Print the font name
Console.WriteLine(font.FontName);
}
}
}

Mã này minh họa quá trình trích xuất phông chữ từ PDF bằng C#. Nếu bạn muốn trích xuất các phông chữ nhúng, hãy sử dụng cờ IsEmbedded cho mỗi phông chữ và xử lý nó tương ứng. Lớp Font tiết lộ các thuộc tính khác nhau có thể truy cập, chẳng hạn như cờ IsAccessible cho biết liệu phông chữ có được cài đặt trên hệ thống hay không và lấy lỗi nhúng phông chữ cuối cùng.

Bài viết này đã dạy chúng ta cách truy cập và hiển thị các phông chữ trong tệp PDF. Để chuyển đổi URL thành PDF, hãy xem bài viết về Chuyển đổi URL thành PDF bằng C#.

 Tiếng Việt