यह संक्षिप्त ट्यूटोरियल इनपुट PDF दस्तावेज़ को लोड करके और इसे Text प्रारूप में सहेजकर पीडीएफ को जावा में टेक्स्ट में कैसे बदलें के बारे में विवरण प्रदान करता है। इसके अलावा, जावा पीडीएफ टू टेक्स्ट कन्वर्टर का उपयोग यह नियंत्रित करने के लिए अनुकूलित किया जा सकता है कि क्या आप स्रोत पीडीएफ फाइल की तुलना में आउटपुट टेक्स्ट को फॉर्मेटिंग के साथ या बिना फॉर्मेट करना चाहते हैं।
जावा में पीडीएफ को टेक्स्ट में बदलने के चरण
- पीडीएफ को टेक्स्ट फाइल में बदलने के लिए मावेन रिपोजिटरी से Aspose.PDF का संदर्भ जोड़कर अपने एप्लिकेशन को कॉन्फ़िगर करें
- पीडीएफ को टेक्स्ट फाइल में बदलने के लिए इनपुट पीडीएफ फाइल को Document क्लास ऑब्जेक्ट के साथ लोड करें
- टेक्स्ट निष्कर्षण विकल्प सेट करने के लिए TextAbsorber क्लास का ऑब्जेक्ट बनाएं
- निकाले गए टेक्स्ट को टेक्स्ट फ़ाइल में लिखें
उपरोक्त चरण एक पीडीएफ टू टेक्स्ट जावा आधारित कनवर्टर एप्लिकेशन विकसित करने की प्रक्रिया को विस्तृत करते हैं। पहले चरण में, इनपुट पीडीएफ डॉक्यूमेंट को डॉक्यूमेंट क्लास इंस्टेंस का उपयोग करके लोड किया जाता है और फिर चुनें कि आप टेक्स्ट को फॉर्मेटिंग के साथ चाहते हैं या नहीं। अंत में, आप फ़ाइल में लिखने के लिए टेक्स्ट स्ट्रिंग का उपयोग कर सकते हैं या अपनी आवश्यकताओं के अनुसार इसे आगे संसाधित कर सकते हैं।
जावा में पीडीएफ को टेक्स्ट में बदलने के लिए कोड
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
यह नमूना कोड दर्शाता है कि विभिन्न विकल्पों का उपयोग करके जावा कन्वर्ट पीडीएफ को टेक्स्ट में पूर्ण नियंत्रण के साथ टेक्स्टएब्जॉर्बर क्लास में कई कंस्ट्रक्टर हैं जहां आप टेक्स्टसर्चऑप्शन का उपयोग कर सकते हैं जो एक अलग टेक्स्ट के रूप में स्रोत पीडीएफ में छायांकित टेक्स्ट को बदलने का विकल्प प्रदान करता है। इसी तरह, आप केवल पेज बाउंड के भीतर टेक्स्ट खोजने के लिए फ़्लैग सेट कर सकते हैं या केवल सभी पेजों में एक निर्दिष्ट क्षेत्र से टेक्स्ट खोजने के लिए एक आयत सेट कर सकते हैं।
यहां हमने सीखा है कि कोड स्निपेट के साथ पीडीएफ को जावा में टेक्स्ट में कैसे बदला जाता है। यदि आप PDF को Word में बदलने की प्रक्रिया सीखना चाहते हैं, तो जावा में पीडीएफ को वर्ड में कैसे बदलें पर लेख देखें।