यह ट्यूटोरियल इस बारे में विवरण प्रदान करता है कि कैसे जावा में पीडीएफ तालिका पढ़ें और वांछित तालिका के अंदर प्रत्येक सेल से संबंधित टेक्स्ट तक पहुंचें। PDF के लक्ष्य पृष्ठ में किसी विशेष तालिका को संदर्भित करने और डेटा पुनर्प्राप्त करने के लिए सभी पंक्तियों और कक्षों के माध्यम से पार्स करने के लिए आपके पास पूर्ण नियंत्रण होगा। इसे लिखने के लिए PDF टेबल रीडर जावा में किसी अन्य तृतीय-पक्ष टूल या सॉफ़्टवेयर की आवश्यकता नहीं है।
जावा में पीडीएफ टेबल पढ़ने के चरण
- मावेन रिपॉजिटरी से Aspose.PDF जोड़ने के लिए अपने पीडीएफ टेबल रीडर एप्लिकेशन को कॉन्फ़िगर करें
- Document क्लास ऑब्जेक्ट का उपयोग करके नमूना PDF फ़ाइल लोड करें जिसमें एक तालिका है
- चयनित पीडीएफ पेज से सभी पीडीएफ टेबल लाने के लिए TableAbsorber ऑब्जेक्ट को इंस्टेंट करें और इनिशियलाइज़ करें
- वांछित तालिका में सभी पंक्तियों के माध्यम से पुनरावृति
- वांछित पंक्ति में सभी कक्षों के माध्यम से पुनरावृति करें और प्रत्येक कक्ष से सभी पाठ अंश प्राप्त करें
- सेल से प्राप्त टेक्स्ट प्रदर्शित करें
ये चरण बताते हैं कि परियोजना में जोड़े जाने वाले आवश्यक पुस्तकालयों के बारे में जानकारी के साथ पीडीएफ से जावा एक्सट्रैक्ट टेबल का उपयोग कैसे किया जाता है। यह कार्य को पूरा करने के लिए संचालन के क्रम को भी बताता है जैसे पहले पीडीएफ लोड करना, फिर किसी विशेष पृष्ठ तक पहुंचना, और वांछित तालिका प्राप्त करना। अंत में, जानकारी प्राप्त करने के लिए सभी पंक्तियों और कोशिकाओं के माध्यम से विश्लेषण करें।
जावा में पीडीएफ टेबल पढ़ने के लिए कोड
import com.aspose.pdf.License; | |
import com.aspose.pdf.AbsorbedCell; | |
import com.aspose.pdf.AbsorbedRow; | |
import com.aspose.pdf.AbsorbedTable; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.TableAbsorber; | |
import com.aspose.pdf.TextFragmentCollection; | |
public class ReadPDFTableInJava { | |
public static void main(String[] args) throws Exception { // main function for reading PDF table data in ReadPDFTableInJava | |
// For avoiding the trial version limitation, load the Aspose.PDF license prior to reading table data | |
License licenseForHtmlToPdf = new License(); | |
licenseForHtmlToPdf.setLicense("Aspose.Pdf.lic"); | |
// Load a source PDF document which contains a table in it | |
Document pdfDocument = new Document("PdfWithTable.pdf"); | |
// Instantiate the TableAbsorber object for PDF tables extraction | |
TableAbsorber tableAbsorber = new TableAbsorber(); | |
// visit the table collection in the input PDF | |
tableAbsorber.visit(pdfDocument.getPages().get_Item(1)); | |
// Access the desired table from the tables collection | |
AbsorbedTable absorbedTable = tableAbsorber.getTableList().get(0); | |
// Parse all the rows and get each row using the AbsorbedRow | |
for (AbsorbedRow pdfTableRow : absorbedTable.getRowList()) | |
{ | |
// Access each cell in the cells collection using AbsorbedCell | |
for (AbsorbedCell pdfTableCell : pdfTableRow.getCellList()) | |
{ | |
// Access each text fragment from the cell | |
TextFragmentCollection textFragmentCollection = pdfTableCell.getTextFragments(); | |
// Access each text fragment from the fragments collection | |
for (com.aspose.pdf.TextFragment textFragment : textFragmentCollection) | |
{ | |
// Display the table cell text | |
System.out.println(textFragment.getText()); | |
} | |
} | |
} | |
System.out.println("Done"); | |
} | |
} |
पीडीएफ से टेबल निकालने के लिए जावा* कोड यहां दिया गया है जो पीडीएफ में टेबल को हैंडल करने के लिए टेबलएब्सॉर्बर और एब्सॉर्बडटेबल क्लासेस का उपयोग करता है। यह सेल डेटा प्राप्त करने के लिए TextFragment वर्ग का उपयोग करने से पहले पंक्तियों और स्तंभों के प्रबंधन के लिए AbsorbedRow और AbsorbedCell कक्षाओं का भी उपयोग करता है। इसके अलावा, दस्तावेज़ में विभिन्न तत्वों के लिए कई अन्य अवशोषक वर्ग उपलब्ध हैं जैसे कि फोंट, पैराग्राफ, टेक्स्ट और टेक्स्ट टुकड़े।
इस आलेख में वर्णन किया गया है कि जावा पीडीएफ तालिका निष्कर्षण का उपयोग कुछ चरणों में किया जा सकता है। अगर आप पीडीएफ फाइल से टेक्स्ट और इमेज पढ़ना सीखना चाहते हैं, तो जावा में पीडीएफ फाइल कैसे पढ़ें पर लेख देखें।