यह संक्षिप्त ट्यूटोरियल पायथन में PDF तालिका कैसे पढ़ें की प्रक्रिया का वर्णन करता है। यह विकास के माहौल को निर्धारित करने के लिए सभी बुनियादी जानकारी, एप्लिकेशन लिखने के लिए चरणों का एक क्रम और Python में पीडीएफ से तालिका निकालने के लिए एक रननेबल नमूना कोड प्रस्तुत करता है। आपको तालिका के प्रत्येक कक्ष तक पहुँचने और फिर उसमें सभी डेटा प्राप्त करने के लिए मार्गदर्शन मिलेगा।
पायथन का उपयोग करके पीडीएफ से तालिका डेटा निकालने के चरण
- तालिकाओं को पढ़ने के लिए वातावरण को .NET के माध्यम से पायथन के लिए Aspose.PDF का उपयोग करें पर सेट करें
- तालिका वाले Document वर्ग का उपयोग करके स्रोत PDF फ़ाइल लोड करें
- लोड की गई पीडीएफ फाइल से टेबल पढ़ने के लिए टेबलएब्जॉर्बर क्लास ऑब्जेक्ट का एक उदाहरण बनाएं
- एक पृष्ठ का चयन करें और उसमें सभी तालिकाओं को पार्स करें
- सेल में सभी TextFragment उदाहरण प्राप्त करने के लिए पहली तालिका तक पहुंचें और पंक्तियों और स्तंभों के माध्यम से विश्लेषण करें
- सभी टेक्स्ट फ़्रैगमेंट के माध्यम से पार्स करें और प्रत्येक फ़्रैगमेंट में टेक्स्ट प्रदर्शित करें
ये चरण Python में PDF तालिका पढ़ने की प्रक्रिया की व्याख्या करते हैं। पीडीएफ फाइल को लोड करके और फिर टेबलएब्जॉर्बर ऑब्जेक्ट बनाकर प्रक्रिया शुरू की जाती है जिसमें पीडीएफ फाइल से टेबल पढ़ने के तरीके हैं। एक बार जब किसी विशेष पृष्ठ पर सभी तालिकाओं को पार्स कर दिया जाता है, तो पहली तालिका को संग्रह से एक्सेस किया जाता है और फिर प्रत्येक पंक्ति और स्तंभ को डेटा प्राप्त करने के लिए इसमें टेक्स्ट अंशों का संग्रह प्राप्त करने के लिए पार्स किया जाता है।
पायथन का उपयोग करके पीडीएफ से तालिका निकालने के लिए कोड
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load source PDF | |
pdfDocument = pdf.Document("PdfWithTable.pdf") | |
# Declare and initialize TableAbsorber object | |
tableAbsorber = pdf.text.TableAbsorber() | |
# Parse all the tables | |
tableAbsorber.visit(pdfDocument.pages[1]) | |
# Get a reference to the first table | |
absorbedTable = tableAbsorber.table_list[0] | |
# Iterate through all the rows | |
for pdfTableRow in absorbedTable.row_list: | |
# Iterate through all the columns | |
for pdfTableCell in pdfTableRow.cell_list: | |
# Fetch the text fragments | |
textFragmentCollection = pdfTableCell.text_fragments | |
# Iterate through the text fragments | |
for textFragment in textFragmentCollection: | |
# Display the text | |
print(textFragment.text) | |
print("Data read successfully from the table") |
उपरोक्त कोड से पता चलता है कि कैसे python का उपयोग करके pdf टेबल पढ़ी जाती है और प्रसंस्करण के लिए इसका डेटा प्राप्त किया जाता है। जब हम TableAbsorber वर्ग में विज़िट () विधि को कॉल करते हैं, तो यह उस table_list सरणी को भरता है जिसका उपयोग अलग-अलग तालिकाओं तक पहुँचने के लिए किया जाता है। तालिका संग्रह में प्रत्येक तालिका में row_list संपत्ति होती है जिसमें कॉलम संग्रह तक पहुंच प्रदान करने वाली एक cell_list संपत्ति होती है और अंत में आप किसी विशेष सेल में डेटा का संग्रह प्राप्त करने के लिए text_fragments संपत्ति तक पहुंच जाते हैं।
इस लेख ने हमें सिखाया है कि पीडीएफ से तालिका निकालने के लिए पायथन का उपयोग आसानी से किया जा सकता है। यदि आप PDF में बुकमार्क पढ़ने की प्रक्रिया सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ में बुकमार्क कैसे पढ़ें पर लेख देखें।