이 간단한 주제는 HTML를 자바에서 텍스트로 변환하는 방법에 관한 것입니다. Windows, Linux 또는 macOS 플랫폼에서 실행되는 Java HTML에서 일반 텍스트로 변환 응용 프로그램은 간단하고 쉬운 API 인터페이스를 사용하여 개발할 수 있습니다.
Java에서 HTML을 텍스트로 변환하는 단계
- Maven 저장소에서 Aspose.HTML for Java을(를) 추가하도록 프로젝트를 구성합니다.
- 애플리케이션에 Aspose.HTML 네임스페이스에 대한 참조 포함
- String 객체를 사용하여 소스 HMTL 파일 내용 읽기
- HTMLDocument class 개체를 초기화하여 소스 HTML 문자열을 로드합니다.
- INodeIterator 클래스 개체를 초기화하여 노드를 반복하고 StringBuilder에 추가합니다.
- HTML에서 추출한 텍스트를 디스크에 저장
몇 줄의 코드를 사용하여 HTML Java 기반 응용 프로그램에서 텍스트를 추출하기 위해 사용할 수 있습니다. 소스 HTML을 String 개체에 로드하고 이후에 HTMLDocument 클래스를 사용하여 해당 String을 로드하여 프로세스를 시작합니다. 그런 다음 INodeIterator를 사용하여 HMTL 노드를 추출, 탐색 및 StringBuilder에 추가합니다. 마지막으로 StringBuilder는 디스크에 일반 텍스트 파일로 저장됩니다.
Java에서 HTML을 텍스트로 변환하는 코드
Java의 위 예제는 몇 번의 API 호출로 HTML을 일반 텍스트로 변환합니다. NodeFilter 클래스를 확장하고 AcceptNode 메서드를 구현하여 고객 노드 필터를 설정하고 변환 프로세스 동안 HTML에서 바람직하지 않은 노드를 생략하는 StyleFilter 클래스를 만들었습니다.
이 주제에서는 Java의 HTML에서 텍스트를 추출하는 방법을 살펴보았습니다. MD 파일을 XPS 형식으로 변환하는 데 관심이 있는 경우 Java를 사용하여 Markdown을 XPS로 변환 방법 항목으로 진행하세요.