जावा में HTML को टेक्स्ट में कैसे बदलें

यह आसान विषय इस बारे में है कि HTML को Java में टेक्स्ट में कैसे बदलेंजावा एचटीएमएल टू प्लेन टेक्स्ट में विंडोज, लिनक्स या मैकओएस प्लेटफॉर्म के तहत चलने वाले रूपांतरण एप्लिकेशन को सरल और आसान एपीआई इंटरफेस का उपयोग करके विकसित किया जा सकता है।

जावा में HTML को टेक्स्ट में बदलने के चरण

  1. मावेन रिपॉजिटरी से Aspose.HTML for Java जोड़ने के लिए अपना प्रोजेक्ट कॉन्फ़िगर करें
  2. अपने आवेदन में Aspose.HTML नाम स्थान का संदर्भ शामिल करें
  3. स्ट्रिंग ऑब्जेक्ट का उपयोग करके स्रोत HMTL फ़ाइल सामग्री पढ़ें
  4. स्रोत HTML स्ट्रिंग को लोड करने के लिए HTMLDocument class ऑब्जेक्ट को इनिशियलाइज़ करें
  5. नोड्स को पुनरावृत्त करने के लिए INodeIterator क्लास ऑब्जेक्ट को प्रारंभ करें और StringBuilder में संलग्न करें
  6. HTML से निकाले गए टेक्स्ट को डिस्क पर सेव करें

कोड की कुछ पंक्तियों का उपयोग करके HTML Java आधारित एप्लिकेशन से टेक्स्ट निकालने के लिए उपयोग किया जा सकता है। हम स्रोत HTML को एक स्ट्रिंग ऑब्जेक्ट में लोड करके और बाद में उस स्ट्रिंग को HTMLDocument क्लास का उपयोग करके लोड करके प्रक्रिया शुरू करेंगे। फिर हम स्ट्रिंगबिल्डर में एचएमटीएल नोड्स को निकालने, पार करने और जोड़ने के लिए इनोडइटरेटर का उपयोग करेंगे। अंत में, StringBuilder को डिस्क पर सादे पाठ फ़ाइल के रूप में सहेजा जाएगा।

जावा में HTML को टेक्स्ट में बदलने के लिए कोड

import com.aspose.html.HTMLDocument;
import com.aspose.html.License;
import com.aspose.html.dom.Node;
import com.aspose.html.dom.traversal.INodeIterator;
import com.aspose.html.dom.traversal.filters.NodeFilter;
import java.nio.file.Paths;
import java.nio.file.Files;
import java.io.IOException;
import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;
import java.util.stream.Collectors;
public class HtmlToTextCoverter {
public static void main(String[] argsHTMLFile) throws Exception {
// Setting Aspose.Html Java API license to use complete features
License lic = new License();
lic.setLicense("HTML.Total.Java.lic");
// Read the HTML file in String
String content = null;
try {
content = readFileContent("TestFile.html", StandardCharsets.UTF_8);
} catch (IOException exception) {
exception.printStackTrace();
return;
}
// Instantiate HtmlDocument object to load HTML content in String
HTMLDocument document = new HTMLDocument(content, "");
// Initialize INodeIterator instance iterate HTML nodes
INodeIterator iterator = document.createNodeIterator(document, NodeFilter.SHOW_TEXT, new StyleFilter());
StringBuilder Stringbld = new StringBuilder();
// Temp Node object
Node node;
// Iterate through Nodes
while ((node = iterator.nextNode()) != null)
Stringbld.append(node.getNodeValue());
System.out.println(Stringbld.toString());
Files.write(Paths.get("HtmlToText_Java.txt"), Stringbld.toString().getBytes());
}
public static String readFileContent(String filePath, Charset encoding) throws IOException {
String fileContent = Files.lines(Paths.get(filePath), encoding)
.collect(Collectors.joining(System.lineSeparator()));
return fileContent;
}
}
class StyleFilter extends NodeFilter {
@Override
public short acceptNode(Node node) {
// In order to skip an element while fetching nodes, mention the name of element in upper case letters
return (node.getParentElement().getTagName() == "STYLE" || node.getParentElement().getTagName() == "SCRIPT"
? FILTER_REJECT : FILTER_ACCEPT);
}
}

*जावा में उपरोक्त उदाहरण कुछ एपीआई कॉलों में HTML को सादे पाठ में परिवर्तित करता है। हमने StyleFilter वर्ग बनाया है जो NodeFilter वर्ग का विस्तार करता है और ग्राहक नोड फ़िल्टर सेट करने के लिए AcceptNode पद्धति को लागू करता है और रूपांतरण प्रक्रिया के दौरान HTML से अवांछित नोड्स को छोड़ देता है।

इस विषय में, हमने जावा में HTML से टेक्स्ट निकालने का तरीका खोजा है। यदि आप एमडी फ़ाइल को एक्सपीएस प्रारूप में बदलने में रुचि रखते हैं, तो इस विषय पर आगे बढ़ें कि जावा का उपयोग करके मार्कडाउन को XPS में बदलें कैसे करें।

 हिन्दी