이 간단한 튜토리얼은 Java에서 PDF 파일을 읽는 방법에 대해 안내합니다. 여기에는 PDF 파일을 읽는 자바 코드가 포함되어 있으므로 먼저 자바의 PDF에서 텍스트를 문자열로 읽은 다음 PDF 파일에서 모든 이미지를 가져와 디스크에 {{HYPERLINK2]로 저장합니다. }}. Java에서 PDF 읽기를 위해 타사 도구를 설치할 필요가 없습니다.
Java에서 PDF 파일을 읽는 단계
- PDF 파일을 읽기 위해 Maven 저장소를 사용하여 프로젝트에 Aspose.PDF 구성
- 샘플 PDF 파일을 Document 클래스 개체에 로드
- PDF 파일에서 전체 텍스트를 읽을 수 있는 TextAbsorber 클래스 개체를 인스턴스화합니다.
- TextAbsorber 클래스 개체를 사용하여 로드된 파일에서 PDF 텍스트 읽기
- 콘솔에 PDF 파일에서 읽은 전체 텍스트 표시
- 이미지에 액세스하기 위해 PDF 파일의 모든 페이지를 반복합니다.
- 각 페이지 이미지 컬렉션의 모든 이미지를 구문 분석하고 디스크에 저장
이 빠른 단계별 자습서에서는 먼저 대상 PDF 파일을 로드한 다음 PDF의 모든 페이지에서 텍스트를 검색할 수 있는 TextAbsorber 클래스 개체를 시작합니다. 이 전체 텍스트는 요구 사항에 따라 표시하거나 처리할 수 있는 문자열로 반환됩니다. 마찬가지로 이미지 컬렉션의 모든 이미지를 구문 분석하고 이 자습서에서 JPG로 저장한 것처럼 디스크에 모든 형식으로 저장할 수 있습니다.
Java를 사용하여 PDF를 읽는 코드
이 샘플 코드에서는 TextAbsorber 클래스와 Page.getResources()의 getImages() 함수를 사용하여 Java를 사용하여 PDF를 읽습니다. TextAbsorber 객체는 PDF PageCollection의 accept 함수로 텍스트를 읽는 데 사용됩니다. getResources() 컬렉션의 getImages() 함수는 페이지의 모든 이미지를 반환합니다.
Java에서 PDF를 읽는 이러한 단계는 Windows, Linux 또는 macOS와 같은 모든 운영 체제에서 수행할 수 있습니다. PDF 파일 작업에 대해 자세히 알아보려면 Java를 사용하여 PDF에서 책갈피를 읽는 방법에 대한 문서를 참조하세요.