यह संक्षिप्त ट्यूटोरियल जावा में पीडीएफ फाइल को कैसे पढ़ें पर आपका मार्गदर्शन करता है। इसमें पीडीएफ फाइल को पढ़ने के लिए जावा कोड इस तरह है कि पहले, आप जावा में PDF से एक स्ट्रिंग में टेक्स्ट पढ़ते हैं और फिर सभी छवियों को डिस्क पर सहेजने के लिए पीडीएफ फाइल से JPG. जावा में पीडीएफ पढ़ने के लिए किसी तीसरे पक्ष के उपकरण को स्थापित करने की आवश्यकता नहीं है।
जावा में पीडीएफ फाइल पढ़ने के चरण
- पीडीएफ फाइल पढ़ने के लिए मावेन रिपॉजिटरी का उपयोग करके Aspose.PDF को अपने प्रोजेक्ट में कॉन्फ़िगर करें
- नमूना PDF फ़ाइल को Document क्लास ऑब्जेक्ट में लोड करें
- TextAbsorber क्लास ऑब्जेक्ट को इंस्टेंट करें जो पीडीएफ फाइल से पूरा टेक्स्ट पढ़ सकता है
- TextAbsorber क्लास ऑब्जेक्ट का उपयोग करके लोड की गई फ़ाइल से PDF टेक्स्ट पढ़ें
- कंसोल पर पीडीएफ फाइल से पढ़े गए पूरे टेक्स्ट को प्रदर्शित करें
- छवियों तक पहुँचने के लिए पीडीएफ फाइल के सभी पृष्ठों के माध्यम से पुनरावृति करें
- प्रत्येक पृष्ठ छवियों के संग्रह पर सभी छवियों को पार्स करें और उन्हें डिस्क पर सहेजें
इस त्वरित चरण-दर-चरण ट्यूटोरियल में, हम पहले लक्ष्य पीडीएफ फाइल लोड करते हैं और फिर टेक्स्टएब्जॉर्बर क्लास ऑब्जेक्ट शुरू करते हैं जो पीडीएफ में सभी पृष्ठों के माध्यम से टेक्स्ट खोजने में सक्षम है। यह पूरा टेक्स्ट एक स्ट्रिंग में वापस कर दिया जाता है जिसे आवश्यकता के अनुसार प्रदर्शित या संसाधित किया जा सकता है। इसी तरह, हम छवियों के संग्रह में सभी छवियों को पार्स कर सकते हैं और उन्हें किसी भी प्रारूप में डिस्क पर सहेज सकते हैं क्योंकि हमने इसे इस ट्यूटोरियल में जेपीजी के रूप में सहेजा है।
जावा का उपयोग करके पीडीएफ पढ़ने के लिए कोड
import com.aspose.pdf.License; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.Page; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.XImage; | |
public class HowToReadPDFFileInJava { | |
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava | |
// Instantiate the license to remove trial version restrictions while reading the PDF file | |
License license = new License(); | |
license.setLicense("Aspose.PDF.lic"); | |
// Load the PDF file from which text and images are to be read | |
Document pdf = new Document("Input.pdf"); | |
// 1. Read entire text from the PDF file | |
// Instantiate a TextAbsorber Class object to read Text from PDF file | |
TextAbsorber textAbsorberObject = new TextAbsorber(); | |
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages | |
pdf.getPages().accept(textAbsorberObject); | |
// Write the extracted text from the sample PDF to console | |
System.out.println(textAbsorberObject.getText()); | |
// 2. Extract images from PDF file | |
int imageCount = 1; | |
// Iterate through all the PDF pages to access images collection and save them on the disc | |
for (Page pdfPage : pdf.getPages()) | |
{ | |
// Iterate through images collection in the PDF file | |
for (XImage image : pdfPage.getResources().getImages()) | |
{ | |
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg"); | |
// Save each image in the PDF file images collection to a JPG file | |
image.save(outputImageFromPdfFile); | |
outputImageFromPdfFile.close(); | |
imageCount++; | |
} | |
// Reset image index | |
imageCount = 1; | |
} | |
} | |
} |
इस नमूना कोड में, हमने पेज.getResources () के TextAbsorber क्लास और getImages () फ़ंक्शन का उपयोग * Java का उपयोग करके PDF पढ़ने के लिए किया। PDF PageCollection में एक्सेप्ट फंक्शन द्वारा टेक्स्ट को पढ़ने के लिए TextAbsorber ऑब्जेक्ट का उपयोग किया जाता है। जबकि getResources() संग्रह का getImages() फ़ंक्शन किसी पृष्ठ पर सभी छवियों को लौटाता है।
ध्यान दें कि जावा में पीडीएफ पढ़ने के इन चरणों को विंडोज, लिनक्स या मैकओएस जैसे किसी भी ऑपरेटिंग सिस्टम में किया जा सकता है। यदि आप पीडीएफ फाइलों के साथ काम करने के बारे में अधिक जानना चाहते हैं, तो जावा का उपयोग करके पीडीएफ में बुकमार्क कैसे पढ़ें पर लेख देखें।