So lesen Sie PDF-Dateien in C#

Das programmgesteuerte Lesen verschiedener Arten von Dokumenten ist heutzutage gängige Praxis. In dieser Anleitung erfahren Sie, wie Sie die PDF-Datei in C# lesen, indem Sie die folgenden einfachen Schritte befolgen.

Schritte zum Lesen von PDF-Dateien in C#

  1. Erstellen Sie in Visual Studio eine leere C#-Konsolenanwendung
  2. Fügen Sie einen Verweis auf Aspose.PDF for .NET hinzu, indem Sie es von NuGet.org installieren
  3. Laden Sie eine vorhandene PDF-Datei in das Document-Objekt
  4. Initialisieren Sie die Klasse TextAbsorber, um die PDF-Datei zu lesen
  5. Extrahieren Sie PDF-Text und schreiben Sie ihn in die Konsolenausgabe
  6. Durchlaufen Sie die PDF-Seite Resources, um Bilder zu finden
  7. FileStream-Objekt mit gefundenem Bild erstellen
  8. Speichern Sie das Image auf der lokalen Festplatte

Das folgende Code-Snippet erklärt, wie man PDF-Dateien in C# öffnet und liest. Sie können Text lesen und Bilder aus einer PDF-Datei extrahieren, indem Sie sie verwenden. Die API bietet eine TextAbsorber-Klasse, die zum Lesen von Text aus einer PDF-Datei verwendet wird, und Sie können die extrahierten Ergebnisse über das Text-Objekt erzielen. Das Suchen und Speichern von Bildern auf der lokalen Festplatte ist auch möglich, indem Sie die PDF-Seitenressourcen wie unten gezeigt durchlaufen.

Code zum Lesen von PDF-Dateien in C#

using System;
using System.IO;
// Add reference to Aspose.PDF for .NET API
// Use following namespace to read PDF file
using Aspose.Pdf;
namespace ReadPDFFiles
{
class Program
{
static void Main(string[] args)
{
// Set license before reading PDF file
Aspose.Pdf.License AsposePDFLicense = new Aspose.Pdf.License();
AsposePDFLicense.SetLicense(@"c:\asposelicense\license.lic");
string inFile = @"c:\ReadPDFFileInCSharp.pdf";
// Load an existing PDF file in Document object to read
Document pdf = new Document(inFile);
// 1. Read text from PDF file
// Initialize TextAbsorber Class to read Text from PDF file
Aspose.Pdf.Text.TextAbsorber textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
// Call Page.Accept() method to let TextAbsorber find text in PDF Pages
pdf.Pages.Accept(textAbsorber);
// Write the extracted text to Console output
Console.WriteLine(textAbsorber.Text);
// 2. Extract images from PDF file
int imageIndex = 1;
// Iterate through PDF pages
foreach (var pdfPage in pdf.Pages)
{
// Check available images while reading the PDF
foreach (XImage image in pdfPage.Resources.Images)
{
// Create file stream for found image
FileStream extractedImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", pdfPage.Number, imageIndex), FileMode.Create);
// Save output image to the disk
image.Save(extractedImage, System.Drawing.Imaging.ImageFormat.Jpeg);
// Close stream
extractedImage.Close();
imageIndex++;
}
// Reset image index
imageIndex = 1;
}
}
}
}

Im vorherigen Thema haben Sie wie man große PDF-Dateien in C# verarbeitet gelernt. Mit den obigen Informationen und dem Codebeispiel können Sie PDF-Dateien in C# öffnen und lesen, um Text und Bilder zu extrahieren.

 Deutsch