Kako čitati PDF datoteku u C#

Čitanje različitih vrsta dokumenata programski je uobičajena praksa ovih dana. U ovom vodiču s uputama naučit ćete kako čitati datoteku PDF u C# slijedeći jednostavne korake u nastavku.

Koraci za čitanje PDF datoteke u C#

  1. Stvorite praznu C# konzolnu aplikaciju u Visual Studiju
  2. Dodajte referencu na Aspose.PDF for .NET instaliranjem s NuGet.org
  3. Učitaj postojeću PDF datoteku u objekt dokumenta
  4. Inicijalizirajte TextAbsorber klasu za čitanje PDF datoteke
  5. Ekstrahirajte PDF tekst i zapišite ga u izlaz konzole
  6. Iterirajte PDF stranicu Resources da pronađete slike
  7. Stvorite objekt FileStream s pronađenom slikom
  8. Spremite sliku na lokalni disk

Donji isječak koda objašnjava kako otvoriti i čitati PDF datoteku u C#. Pomoću njega moći ćete čitati tekst i izdvajati slike iz PDF datoteke. API nudi klasu TextAbsorber koja se koristi za čitanje teksta iz PDF datoteke, a ekstrahirane rezultate možete postići putem objekta Text. Pronalaženje slika i njihovo spremanje na lokalni disk također je moguće pretragom resursa PDF stranice kao što je prikazano u nastavku.

Kod za čitanje PDF datoteke u C#

using System;
using System.IO;
// Add reference to Aspose.PDF for .NET API
// Use following namespace to read PDF file
using Aspose.Pdf;
namespace ReadPDFFiles
{
class Program
{
static void Main(string[] args)
{
// Set license before reading PDF file
Aspose.Pdf.License AsposePDFLicense = new Aspose.Pdf.License();
AsposePDFLicense.SetLicense(@"c:\asposelicense\license.lic");
string inFile = @"c:\ReadPDFFileInCSharp.pdf";
// Load an existing PDF file in Document object to read
Document pdf = new Document(inFile);
// 1. Read text from PDF file
// Initialize TextAbsorber Class to read Text from PDF file
Aspose.Pdf.Text.TextAbsorber textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
// Call Page.Accept() method to let TextAbsorber find text in PDF Pages
pdf.Pages.Accept(textAbsorber);
// Write the extracted text to Console output
Console.WriteLine(textAbsorber.Text);
// 2. Extract images from PDF file
int imageIndex = 1;
// Iterate through PDF pages
foreach (var pdfPage in pdf.Pages)
{
// Check available images while reading the PDF
foreach (XImage image in pdfPage.Resources.Images)
{
// Create file stream for found image
FileStream extractedImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", pdfPage.Number, imageIndex), FileMode.Create);
// Save output image to the disk
image.Save(extractedImage, System.Drawing.Imaging.ImageFormat.Jpeg);
// Close stream
extractedImage.Close();
imageIndex++;
}
// Reset image index
imageIndex = 1;
}
}
}
}

U prethodnoj temi ste naučili kako obraditi velike PDF datoteke u C#. Gornje informacije i primjer koda omogućit će vam otvaranje i čitanje PDF datoteka u C# kako biste izdvojili tekst i slike.

 Hrvatski