Kaip skaityti PDF failą C#

Įvairių tipų dokumentų skaitymas programiškai yra įprasta šių dienų praktika. Šiame vadove sužinosite, kaip skaityti PDF failą C#, atlikdami toliau nurodytus paprastus veiksmus.

Veiksmai, kaip skaityti PDF failą C#

  1. Sukurkite tuščią C# konsolės programą Visual Studio.
  2. Pridėkite nuorodą į Aspose.PDF for .NET, įdiegdami ją iš NuGet.org
  3. Įkelkite esamą PDF failą į dokumento objektą
  4. Norėdami skaityti PDF failą, inicijuokite TextAbsorber klasę
  5. Ištraukite PDF tekstą ir parašykite jį į konsolės išvestį
  6. Norėdami rasti vaizdų, kartokite PDF puslapį Resources
  7. Sukurkite FileStream objektą su rastu vaizdu
  8. Išsaugokite vaizdą vietiniame diske

Žemiau pateiktas kodo fragmentas paaiškina, kaip atidaryti ir skaityti PDF failą C#. Naudodami jį galėsite skaityti tekstą ir ištraukti vaizdus iš PDF failo. API siūlo TextAbsorber klasę, kuri naudojama tekstui iš PDF failo skaityti, o ištrauktus rezultatus galite pasiekti naudodami objektą Text. Rasti vaizdus ir įrašyti juos į vietinį diską taip pat galima peržiūrint PDF puslapio išteklius, kaip parodyta toliau.

Kodas, skirtas skaityti PDF failą C#

using System;
using System.IO;
// Add reference to Aspose.PDF for .NET API
// Use following namespace to read PDF file
using Aspose.Pdf;
namespace ReadPDFFiles
{
class Program
{
static void Main(string[] args)
{
// Set license before reading PDF file
Aspose.Pdf.License AsposePDFLicense = new Aspose.Pdf.License();
AsposePDFLicense.SetLicense(@"c:\asposelicense\license.lic");
string inFile = @"c:\ReadPDFFileInCSharp.pdf";
// Load an existing PDF file in Document object to read
Document pdf = new Document(inFile);
// 1. Read text from PDF file
// Initialize TextAbsorber Class to read Text from PDF file
Aspose.Pdf.Text.TextAbsorber textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
// Call Page.Accept() method to let TextAbsorber find text in PDF Pages
pdf.Pages.Accept(textAbsorber);
// Write the extracted text to Console output
Console.WriteLine(textAbsorber.Text);
// 2. Extract images from PDF file
int imageIndex = 1;
// Iterate through PDF pages
foreach (var pdfPage in pdf.Pages)
{
// Check available images while reading the PDF
foreach (XImage image in pdfPage.Resources.Images)
{
// Create file stream for found image
FileStream extractedImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", pdfPage.Number, imageIndex), FileMode.Create);
// Save output image to the disk
image.Save(extractedImage, System.Drawing.Imaging.ImageFormat.Jpeg);
// Close stream
extractedImage.Close();
imageIndex++;
}
// Reset image index
imageIndex = 1;
}
}
}
}

Ankstesnėje temoje sužinojote kaip apdoroti didelius PDF failus C#. Aukščiau pateikta informacija ir kodo pavyzdys leis atidaryti ir skaityti PDF failus C#, kad išgautumėte tekstą ir vaizdus.

 Latviski