पायथन में पीडीएफ टेबल कैसे पढ़ें

यह संक्षिप्त ट्यूटोरियल पायथन में PDF तालिका कैसे पढ़ें की प्रक्रिया का वर्णन करता है। यह विकास के माहौल को निर्धारित करने के लिए सभी बुनियादी जानकारी, एप्लिकेशन लिखने के लिए चरणों का एक क्रम और Python में पीडीएफ से तालिका निकालने के लिए एक रननेबल नमूना कोड प्रस्तुत करता है। आपको तालिका के प्रत्येक कक्ष तक पहुँचने और फिर उसमें सभी डेटा प्राप्त करने के लिए मार्गदर्शन मिलेगा।

पायथन का उपयोग करके पीडीएफ से तालिका डेटा निकालने के चरण

  1. तालिकाओं को पढ़ने के लिए वातावरण को .NET के माध्यम से पायथन के लिए Aspose.PDF का उपयोग करें पर सेट करें
  2. तालिका वाले Document वर्ग का उपयोग करके स्रोत PDF फ़ाइल लोड करें
  3. लोड की गई पीडीएफ फाइल से टेबल पढ़ने के लिए टेबलएब्जॉर्बर क्लास ऑब्जेक्ट का एक उदाहरण बनाएं
  4. एक पृष्ठ का चयन करें और उसमें सभी तालिकाओं को पार्स करें
  5. सेल में सभी TextFragment उदाहरण प्राप्त करने के लिए पहली तालिका तक पहुंचें और पंक्तियों और स्तंभों के माध्यम से विश्लेषण करें
  6. सभी टेक्स्ट फ़्रैगमेंट के माध्यम से पार्स करें और प्रत्येक फ़्रैगमेंट में टेक्स्ट प्रदर्शित करें

ये चरण Python में PDF तालिका पढ़ने की प्रक्रिया की व्याख्या करते हैं। पीडीएफ फाइल को लोड करके और फिर टेबलएब्जॉर्बर ऑब्जेक्ट बनाकर प्रक्रिया शुरू की जाती है जिसमें पीडीएफ फाइल से टेबल पढ़ने के तरीके हैं। एक बार जब किसी विशेष पृष्ठ पर सभी तालिकाओं को पार्स कर दिया जाता है, तो पहली तालिका को संग्रह से एक्सेस किया जाता है और फिर प्रत्येक पंक्ति और स्तंभ को डेटा प्राप्त करने के लिए इसमें टेक्स्ट अंशों का संग्रह प्राप्त करने के लिए पार्स किया जाता है।

पायथन का उपयोग करके पीडीएफ से तालिका निकालने के लिए कोड

import aspose.pdf as pdf
# Load the license
license = pdf.License()
license.set_license("Aspose.Total.lic")
# Load source PDF
pdfDocument = pdf.Document("PdfWithTable.pdf")
# Declare and initialize TableAbsorber object
tableAbsorber = pdf.text.TableAbsorber()
# Parse all the tables
tableAbsorber.visit(pdfDocument.pages[1])
# Get a reference to the first table
absorbedTable = tableAbsorber.table_list[0]
# Iterate through all the rows
for pdfTableRow in absorbedTable.row_list:
# Iterate through all the columns
for pdfTableCell in pdfTableRow.cell_list:
# Fetch the text fragments
textFragmentCollection = pdfTableCell.text_fragments
# Iterate through the text fragments
for textFragment in textFragmentCollection:
# Display the text
print(textFragment.text)
print("Data read successfully from the table")

उपरोक्त कोड से पता चलता है कि कैसे python का उपयोग करके pdf टेबल पढ़ी जाती है और प्रसंस्करण के लिए इसका डेटा प्राप्त किया जाता है। जब हम TableAbsorber वर्ग में विज़िट () विधि को कॉल करते हैं, तो यह उस table_list सरणी को भरता है जिसका उपयोग अलग-अलग तालिकाओं तक पहुँचने के लिए किया जाता है। तालिका संग्रह में प्रत्येक तालिका में row_list संपत्ति होती है जिसमें कॉलम संग्रह तक पहुंच प्रदान करने वाली एक cell_list संपत्ति होती है और अंत में आप किसी विशेष सेल में डेटा का संग्रह प्राप्त करने के लिए text_fragments संपत्ति तक पहुंच जाते हैं।

इस लेख ने हमें सिखाया है कि पीडीएफ से तालिका निकालने के लिए पायथन का उपयोग आसानी से किया जा सकता है। यदि आप PDF में बुकमार्क पढ़ने की प्रक्रिया सीखना चाहते हैं, तो पायथन का उपयोग करके पीडीएफ में बुकमार्क कैसे पढ़ें पर लेख देखें।

 हिन्दी