जावा में पीडीएफ को टेक्स्ट में कैसे बदलें

यह संक्षिप्त ट्यूटोरियल इनपुट PDF दस्तावेज़ को लोड करके और इसे Text प्रारूप में सहेजकर पीडीएफ को जावा में टेक्स्ट में कैसे बदलें के बारे में विवरण प्रदान करता है। इसके अलावा, जावा पीडीएफ टू टेक्स्ट कन्वर्टर का उपयोग यह नियंत्रित करने के लिए अनुकूलित किया जा सकता है कि क्या आप स्रोत पीडीएफ फाइल की तुलना में आउटपुट टेक्स्ट को फॉर्मेटिंग के साथ या बिना फॉर्मेट करना चाहते हैं।

जावा में पीडीएफ को टेक्स्ट में बदलने के चरण

  1. पीडीएफ को टेक्स्ट फाइल में बदलने के लिए मावेन रिपोजिटरी से Aspose.PDF का संदर्भ जोड़कर अपने एप्लिकेशन को कॉन्फ़िगर करें
  2. पीडीएफ को टेक्स्ट फाइल में बदलने के लिए इनपुट पीडीएफ फाइल को Document क्लास ऑब्जेक्ट के साथ लोड करें
  3. टेक्स्ट निष्कर्षण विकल्प सेट करने के लिए TextAbsorber क्लास का ऑब्जेक्ट बनाएं
  4. निकाले गए टेक्स्ट को टेक्स्ट फ़ाइल में लिखें

उपरोक्त चरण एक पीडीएफ टू टेक्स्ट जावा आधारित कनवर्टर एप्लिकेशन विकसित करने की प्रक्रिया को विस्तृत करते हैं। पहले चरण में, इनपुट पीडीएफ डॉक्यूमेंट को डॉक्यूमेंट क्लास इंस्टेंस का उपयोग करके लोड किया जाता है और फिर चुनें कि आप टेक्स्ट को फॉर्मेटिंग के साथ चाहते हैं या नहीं। अंत में, आप फ़ाइल में लिखने के लिए टेक्स्ट स्ट्रिंग का उपयोग कर सकते हैं या अपनी आवश्यकताओं के अनुसार इसे आगे संसाधित कर सकते हैं।

जावा में पीडीएफ को टेक्स्ट में बदलने के लिए कोड

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

यह नमूना कोड दर्शाता है कि विभिन्न विकल्पों का उपयोग करके जावा कन्वर्ट पीडीएफ को टेक्स्ट में पूर्ण नियंत्रण के साथ टेक्स्टएब्जॉर्बर क्लास में कई कंस्ट्रक्टर हैं जहां आप टेक्स्टसर्चऑप्शन का उपयोग कर सकते हैं जो एक अलग टेक्स्ट के रूप में स्रोत पीडीएफ में छायांकित टेक्स्ट को बदलने का विकल्प प्रदान करता है। इसी तरह, आप केवल पेज बाउंड के भीतर टेक्स्ट खोजने के लिए फ़्लैग सेट कर सकते हैं या केवल सभी पेजों में एक निर्दिष्ट क्षेत्र से टेक्स्ट खोजने के लिए एक आयत सेट कर सकते हैं।

यहां हमने सीखा है कि कोड स्निपेट के साथ पीडीएफ को जावा में टेक्स्ट में कैसे बदला जाता है। यदि आप PDF को Word में बदलने की प्रक्रिया सीखना चाहते हैं, तो जावा में पीडीएफ को वर्ड में कैसे बदलें पर लेख देखें।

 हिन्दी