이 간단한 튜토리얼은 상세한 단계별 절차와 다양한 방법으로 샘플 문서를 읽는 실행 가능한 Java 코드를 제공하여 Java에서 Word 문서를 읽는 방법에 대한 정보를 제공합니다. Word 파일을 읽고 다른 세그먼트에 액세스하는 데 사용되는 필수 클래스를 소개합니다. DOCX, DOC 또는 기타 MS Word 지원 파일과 같은 Java 코드로 Word 문서를 읽는 동안 문서의 여러 하위 노드를 반복하고 요구 사항에 따라 각 노드를 처리합니다.
Java에서 Word 파일을 읽는 단계
- DOCX 파일을 읽기 위해 Maven 저장소를 사용하여 Aspose.Words for Java 설치
- Java에서 읽을 수 있도록 소스 DOCX 파일을 Document 클래스 개체에 로드합니다.
- 문서의 모든 Paragraph 유형 노드를 반복합니다.
- 각 단락 텍스트를 문자열로 변환하여 콘솔에 표시
- 문서의 모든 Run 유형 노드를 반복합니다.
- 각 노드를 Run 유형으로 변환하고 Run의 글꼴 이름, 크기 및 텍스트에 액세스합니다.
- 콘솔에 각 실행 텍스트 표시
이 단계에서는 구성 페이지에 대한 링크를 공유한 다음 소스 Word 문서를 로드하도록 안내하여 Java에서 Word 파일을 읽는 방법을 설명합니다. Word 파일이 로드되면 해당 문서 개체 모델(DOM), 즉 논리적 구조도 로드되고 다양한 방식으로 구문 분석될 수 있습니다. 이 단계는 로드된 Word 문서의 다른 부분에 액세스하기 위해 단락 및 실행인 두 가지 주요 컬렉션을 준비하는 데 도움이 됩니다.
Java에서 DOCX 파일을 읽는 코드
이 Word 문서를 읽는 Java 코드는 다른 필터를 사용하여 DOM을 구문 분석하는 것을 보여줍니다. 예를 들어 처음에는 모든 단락 노드를 가져옵니다. Paragraph 클래스는 Tables 등을 포함한 전체 단락에서 텍스트를 추출하여 문자열 변수에 저장하는 toString() 함수를 제공합니다. 마찬가지로 모든 실행을 가져오기 위해 문서를 구문 분석할 때 스타일, 글꼴, 노드 유형 등에 따라 내용을 분리하고 단일 단락을 텍스트 글꼴 스타일에 따라 여러 세그먼트로 나눕니다. 굵은 텍스트는 별도로 이탤릭체로 제공됩니다. 별도로 텍스트 등.
이 자습서는 DOCX 파일을 읽도록 안내했지만 Word에서 PDF로 변환하는 것과 같은 일종의 변환을 원하는 경우 Java에서 Word를 PDF로 변환하는 방법에 대한 문서를 참조하세요.