이 짧은 자습서에서는 입력 PDF 문서를 로드하고 Text 형식으로 저장하여 Java에서 PDF를 텍스트로 변환하는 방법에 대해 자세히 설명합니다. 또한 Java PDF to Text 변환기를 사용하여 원본 PDF 파일과 비교하여 형식이 있거나 없는 출력 텍스트를 원하는지 제어하도록 사용자 지정할 수 있습니다.
Java에서 PDF를 텍스트로 변환하는 단계
- PDF를 텍스트 파일로 변환하기 위해 Maven 저장소에서 Aspose.PDF에 대한 참조를 추가하여 애플리케이션을 구성하십시오.
- PDF를 텍스트 파일로 변환하기 위해 Document 클래스 개체를 사용하여 입력 PDF 파일을 로드합니다.
- TextAbsorber 클래스의 개체를 만들어 텍스트 추출 옵션을 설정하세요.
- 추출된 텍스트를 텍스트 파일에 쓰기
위의 단계는 PDF to Text Java 기반 변환기 응용 프로그램을 개발하는 프로세스를 자세히 설명합니다. 첫 번째 단계에서 입력 PDF 문서는 Document 클래스 인스턴스를 사용하여 로드된 다음 서식이 있는 텍스트를 원하는지 여부를 선택합니다. 마지막으로 텍스트 문자열을 사용하여 파일에 쓰거나 요구 사항에 따라 추가로 처리할 수 있습니다.
Java에서 PDF를 텍스트로 변환하는 코드
이 샘플 코드는 Java를 사용하여 TextAbsorber 클래스와 같은 다양한 옵션을 사용하여 완전한 제어로 PDF를 텍스트로 변환을 사용하면 원본 PDF의 음영 처리된 텍스트를 별도의 텍스트로 변환하는 옵션을 제공하는 TextSearchOptions를 사용할 수 있는 여러 생성자가 있음을 보여줍니다. 마찬가지로 페이지 경계 내에서만 텍스트를 검색하도록 플래그를 설정하거나 모든 페이지의 지정된 영역에서만 텍스트를 검색하도록 사각형을 설정할 수 있습니다.
여기에서 코드 조각과 함께 Java에서 PDF를 텍스트로 변환하는 방법을 배웠습니다. PDF를 Word로 변환하는 과정을 알아보려면 Java에서 PDF를 Word로 변환하는 방법에 있는 문서를 참조하세요.