विभिन्न प्रकार के दस्तावेज़ों को प्रोग्रामेटिक रूप से पढ़ना इन दिनों आम बात है। इस कैसे-कैसे मार्गदर्शिका में, आप नीचे दिए गए सरल चरणों का पालन करके PDF फ़ाइल को C# में पढ़ना सीखेंगे।
सी # में पीडीएफ फाइल पढ़ने के लिए कदम
- विजुअल स्टूडियो में एक खाली सी # कंसोल एप्लिकेशन बनाएं
- Aspose.PDF for .NET को NuGet.org से इंस्टॉल करके उसका संदर्भ जोड़ें
- दस्तावेज़ ऑब्जेक्ट में मौजूदा पीडीएफ फाइल लोड करें
- पीडीएफ फाइल पढ़ने के लिए TextAbsorber कक्षा आरंभ करें
- पीडीएफ टेक्स्ट निकालें और इसे कंसोल आउटपुट में लिखें
- छवियों को खोजने के लिए पीडीएफ पेज Resources के माध्यम से पुनरावृति करें
- मिली छवि के साथ फाइलस्ट्रीम ऑब्जेक्ट बनाएं
- छवि को स्थानीय डिस्क पर सहेजें
नीचे दिए गए कोड स्निपेट में सी#में पीडीएफ फाइल को खोलने और पढ़ने का तरीका बताया गया है। आप इसका उपयोग करके पीडीएफ फाइल से टेक्स्ट पढ़ और छवियों को निकालने में सक्षम होंगे। एपीआई टेक्स्टएब्सॉर्बर क्लास प्रदान करता है जिसका उपयोग पीडीएफ फाइल से टेक्स्ट पढ़ने के लिए किया जाता है और आप निकाले गए परिणाम Text ऑब्जेक्ट के माध्यम से प्राप्त कर सकते हैं। छवियों को ढूंढना और उन्हें स्थानीय डिस्क पर सहेजना भी पीडीएफ पेज संसाधनों के माध्यम से लूप करके संभव है जैसा कि नीचे दिखाया गया है।
सी # में पीडीएफ फाइल पढ़ने के लिए कोड
using System; | |
using System.IO; | |
// Add reference to Aspose.PDF for .NET API | |
// Use following namespace to read PDF file | |
using Aspose.Pdf; | |
namespace ReadPDFFiles | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Set license before reading PDF file | |
Aspose.Pdf.License AsposePDFLicense = new Aspose.Pdf.License(); | |
AsposePDFLicense.SetLicense(@"c:\asposelicense\license.lic"); | |
string inFile = @"c:\ReadPDFFileInCSharp.pdf"; | |
// Load an existing PDF file in Document object to read | |
Document pdf = new Document(inFile); | |
// 1. Read text from PDF file | |
// Initialize TextAbsorber Class to read Text from PDF file | |
Aspose.Pdf.Text.TextAbsorber textAbsorber = new Aspose.Pdf.Text.TextAbsorber(); | |
// Call Page.Accept() method to let TextAbsorber find text in PDF Pages | |
pdf.Pages.Accept(textAbsorber); | |
// Write the extracted text to Console output | |
Console.WriteLine(textAbsorber.Text); | |
// 2. Extract images from PDF file | |
int imageIndex = 1; | |
// Iterate through PDF pages | |
foreach (var pdfPage in pdf.Pages) | |
{ | |
// Check available images while reading the PDF | |
foreach (XImage image in pdfPage.Resources.Images) | |
{ | |
// Create file stream for found image | |
FileStream extractedImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", pdfPage.Number, imageIndex), FileMode.Create); | |
// Save output image to the disk | |
image.Save(extractedImage, System.Drawing.Imaging.ImageFormat.Jpeg); | |
// Close stream | |
extractedImage.Close(); | |
imageIndex++; | |
} | |
// Reset image index | |
imageIndex = 1; | |
} | |
} | |
} | |
} |
पिछले विषय में, आपने सी # में बड़ी पीडीएफ फाइलों को कैसे संसाधित करें सीखा था। उपरोक्त जानकारी और कोड उदाहरण आपको टेक्स्ट और छवियों को निकालने के लिए सी # में पीडीएफ फाइलों को खोलने और पढ़ने में सक्षम बनाता है।