Įvairių tipų dokumentų skaitymas programiškai yra įprasta šių dienų praktika. Šiame vadove sužinosite, kaip skaityti PDF failą C#, atlikdami toliau nurodytus paprastus veiksmus.
Veiksmai, kaip skaityti PDF failą C#
- Sukurkite tuščią C# konsolės programą Visual Studio.
- Pridėkite nuorodą į Aspose.PDF for .NET, įdiegdami ją iš NuGet.org
- Įkelkite esamą PDF failą į dokumento objektą
- Norėdami skaityti PDF failą, inicijuokite TextAbsorber klasę
- Ištraukite PDF tekstą ir parašykite jį į konsolės išvestį
- Norėdami rasti vaizdų, kartokite PDF puslapį Resources
- Sukurkite FileStream objektą su rastu vaizdu
- Išsaugokite vaizdą vietiniame diske
Žemiau pateiktas kodo fragmentas paaiškina, kaip atidaryti ir skaityti PDF failą C#. Naudodami jį galėsite skaityti tekstą ir ištraukti vaizdus iš PDF failo. API siūlo TextAbsorber klasę, kuri naudojama tekstui iš PDF failo skaityti, o ištrauktus rezultatus galite pasiekti naudodami objektą Text. Rasti vaizdus ir įrašyti juos į vietinį diską taip pat galima peržiūrint PDF puslapio išteklius, kaip parodyta toliau.
Kodas, skirtas skaityti PDF failą C#
using System; | |
using System.IO; | |
// Add reference to Aspose.PDF for .NET API | |
// Use following namespace to read PDF file | |
using Aspose.Pdf; | |
namespace ReadPDFFiles | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set license before reading PDF file | |
Aspose.Pdf.License AsposePDFLicense = new Aspose.Pdf.License(); | |
AsposePDFLicense.SetLicense(@"c:\asposelicense\license.lic"); | |
string inFile = @"c:\ReadPDFFileInCSharp.pdf"; | |
// Load an existing PDF file in Document object to read | |
Document pdf = new Document(inFile); | |
// 1. Read text from PDF file | |
// Initialize TextAbsorber Class to read Text from PDF file | |
Aspose.Pdf.Text.TextAbsorber textAbsorber = new Aspose.Pdf.Text.TextAbsorber(); | |
// Call Page.Accept() method to let TextAbsorber find text in PDF Pages | |
pdf.Pages.Accept(textAbsorber); | |
// Write the extracted text to Console output | |
Console.WriteLine(textAbsorber.Text); | |
// 2. Extract images from PDF file | |
int imageIndex = 1; | |
// Iterate through PDF pages | |
foreach (var pdfPage in pdf.Pages) | |
{ | |
// Check available images while reading the PDF | |
foreach (XImage image in pdfPage.Resources.Images) | |
{ | |
// Create file stream for found image | |
FileStream extractedImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", pdfPage.Number, imageIndex), FileMode.Create); | |
// Save output image to the disk | |
image.Save(extractedImage, System.Drawing.Imaging.ImageFormat.Jpeg); | |
// Close stream | |
extractedImage.Close(); | |
imageIndex++; | |
} | |
// Reset image index | |
imageIndex = 1; | |
} | |
} | |
} | |
} |
Ankstesnėje temoje sužinojote kaip apdoroti didelius PDF failus C#. Aukščiau pateikta informacija ir kodo pavyzdys leis atidaryti ir skaityti PDF failus C#, kad išgautumėte tekstą ir vaizdus.