Java'da HTML'yi Metne Dönüştürme

Bu basit konu, Java’da HTML metne nasıl dönüştürüleceği ile ilgilidir. Windows, Linux veya macOS platformları altında çalışan Java HTML’den düz metne dönüştürme uygulaması, basit ve kolay API arayüzleri kullanılarak geliştirilebilir.

Java’da HTML’yi Metne Dönüştürme Adımları

  1. Maven deposundan Aspose.HTML for Java eklemek için projenizi yapılandırın
  2. Uygulamanıza Aspose.HTML ad alanına başvuruyu ekleyin
  3. String nesnesini kullanarak kaynak HMTL dosya içeriğini okuyun
  4. Kaynak HTML Dizesini yüklemek için HTMLDocument class nesnesini başlatın
  5. Düğümleri yinelemek ve StringBuilder’da eklemek için INodeIterator sınıf nesnesini başlatın
  6. HTML’den ayıklanan metni diske kaydedin

HTML’den metin çıkarmak için Java tabanlı uygulama birkaç satır kod kullanarak kullanılabilir. Kaynak HTML’yi bir String nesnesine yükleyerek ve ardından HTMLDocument sınıfını kullanarak bu String’i yükleyerek süreci başlatacağız. Daha sonra HMTL düğümlerini bir StringBuilder’a çıkarmak, geçiş yapmak ve eklemek için INodeIterator kullanacağız. Son olarak, StringBuilder diskte düz metin dosyası olarak kaydedilecektir.

Java’da HTML’yi Metne Dönüştürme Kodu

import com.aspose.html.HTMLDocument;
import com.aspose.html.License;
import com.aspose.html.dom.Node;
import com.aspose.html.dom.traversal.INodeIterator;
import com.aspose.html.dom.traversal.filters.NodeFilter;
import java.nio.file.Paths;
import java.nio.file.Files;
import java.io.IOException;
import java.nio.charset.Charset;
import java.nio.charset.StandardCharsets;
import java.util.stream.Collectors;
public class HtmlToTextCoverter {
public static void main(String[] argsHTMLFile) throws Exception {
// Setting Aspose.Html Java API license to use complete features
License lic = new License();
lic.setLicense("HTML.Total.Java.lic");
// Read the HTML file in String
String content = null;
try {
content = readFileContent("TestFile.html", StandardCharsets.UTF_8);
} catch (IOException exception) {
exception.printStackTrace();
return;
}
// Instantiate HtmlDocument object to load HTML content in String
HTMLDocument document = new HTMLDocument(content, "");
// Initialize INodeIterator instance iterate HTML nodes
INodeIterator iterator = document.createNodeIterator(document, NodeFilter.SHOW_TEXT, new StyleFilter());
StringBuilder Stringbld = new StringBuilder();
// Temp Node object
Node node;
// Iterate through Nodes
while ((node = iterator.nextNode()) != null)
Stringbld.append(node.getNodeValue());
System.out.println(Stringbld.toString());
Files.write(Paths.get("HtmlToText_Java.txt"), Stringbld.toString().getBytes());
}
public static String readFileContent(String filePath, Charset encoding) throws IOException {
String fileContent = Files.lines(Paths.get(filePath), encoding)
.collect(Collectors.joining(System.lineSeparator()));
return fileContent;
}
}
class StyleFilter extends NodeFilter {
@Override
public short acceptNode(Node node) {
// In order to skip an element while fetching nodes, mention the name of element in upper case letters
return (node.getParentElement().getTagName() == "STYLE" || node.getParentElement().getTagName() == "SCRIPT"
? FILTER_REJECT : FILTER_ACCEPT);
}
}

Java’daki yukarıdaki örnek, birkaç API çağrısında HTML’yi düz metne dönüştürür. NodeFilter sınıfını genişleten StyleFilter sınıfı oluşturduk ve dönüştürme işlemi sırasında müşteri düğüm filtrelerini ayarlamak ve istenmeyen düğümleri HTML’den çıkarmak için AcceptNode yöntemini uyguladık.

Bu konuda, Java’da HTML’den metin çıkarmayı keşfettik. MD dosyasının XPS formatına dönüştürülmesiyle ilgileniyorsanız, nasıl yapılacağı konusuna geçin Java kullanarak Markdown’ı XPS’ye dönüştürün.

 Türkçe