이 간단한 튜토리얼은 Java에서 PDF 파일을 읽는 방법에 대해 안내합니다. 여기에는 PDF 파일을 읽는 자바 코드가 포함되어 있으므로 먼저 자바의 PDF에서 텍스트를 문자열로 읽은 다음 PDF 파일에서 모든 이미지를 가져와 디스크에 JPG. Java에서 PDF 읽기를 위해 타사 도구를 설치할 필요가 없습니다.
Java에서 PDF 파일을 읽는 단계
- PDF 파일을 읽기 위해 Maven 저장소를 사용하여 프로젝트에 Aspose.PDF 구성
- 샘플 PDF 파일을 Document 클래스 개체에 로드
- PDF 파일에서 전체 텍스트를 읽을 수 있는 TextAbsorber 클래스 개체를 인스턴스화합니다.
- TextAbsorber 클래스 개체를 사용하여 로드된 파일에서 PDF 텍스트 읽기
- 콘솔에 PDF 파일에서 읽은 전체 텍스트 표시
- 이미지에 액세스하기 위해 PDF 파일의 모든 페이지를 반복합니다.
- 각 페이지 이미지 컬렉션의 모든 이미지를 구문 분석하고 디스크에 저장
이 빠른 단계별 자습서에서는 먼저 대상 PDF 파일을 로드한 다음 PDF의 모든 페이지에서 텍스트를 검색할 수 있는 TextAbsorber 클래스 개체를 시작합니다. 이 전체 텍스트는 요구 사항에 따라 표시하거나 처리할 수 있는 문자열로 반환됩니다. 마찬가지로 이미지 컬렉션의 모든 이미지를 구문 분석하고 이 자습서에서 JPG로 저장한 것처럼 디스크에 모든 형식으로 저장할 수 있습니다.
Java를 사용하여 PDF를 읽는 코드
이 샘플 코드에서는 TextAbsorber 클래스와 Page.getResources()의 getImages() 함수를 사용하여 Java를 사용하여 PDF를 읽습니다. TextAbsorber 객체는 PDF PageCollection의 accept 함수로 텍스트를 읽는 데 사용됩니다. getResources() 컬렉션의 getImages() 함수는 페이지의 모든 이미지를 반환합니다.
Java에서 PDF를 읽는 이러한 단계는 Windows, Linux 또는 macOS와 같은 모든 운영 체제에서 수행할 수 있습니다. PDF 파일 작업에 대해 자세히 알아보려면 Java를 사용하여 PDF에서 책갈피를 읽는 방법에 대한 문서를 참조하세요.