이 튜토리얼은 자바에서 PDF 테이블을 읽고 원하는 테이블 내의 각 셀에 속하는 텍스트에 액세스하는 방법에 대한 세부 정보를 제공합니다. PDF의 대상 페이지에서 특정 테이블을 참조하고 모든 행과 셀을 구문 분석하여 데이터를 검색하는 모든 권한을 갖게 됩니다. 이 PDF 테이블 리더를 Java로 작성하려면 다른 타사 도구나 소프트웨어가 필요하지 않습니다.
Java에서 PDF 테이블을 읽는 단계
- Maven 저장소에서 Aspose.PDF을(를) 추가하도록 PDF 테이블 리더 애플리케이션을 구성합니다.
- Document 클래스 개체를 사용하여 테이블이 포함된 샘플 PDF 파일 로드
- TableAbsorber 개체를 인스턴스화하고 초기화하여 선택한 PDF 페이지에서 모든 PDF 테이블을 가져옵니다.
- 원하는 테이블의 모든 행을 반복합니다.
- 원하는 행의 모든 셀을 반복하고 각 셀의 모든 텍스트 조각을 가져옵니다.
- 셀에서 가져온 텍스트 표시
이 단계에서는 프로젝트에 추가해야 하는 필수 라이브러리에 대한 정보와 함께 *PDF에서 *Java 추출 테이블을 사용하는 방법을 설명합니다. 또한 PDF를 먼저 로드한 다음 특정 페이지에 액세스하고 원하는 테이블을 가져오는 것과 같은 작업을 완료하기 위한 작업 순서를 명시합니다. 마지막으로 모든 행과 셀을 구문 분석하여 정보를 얻습니다.
Java에서 PDF 테이블을 읽는 코드
PDF에서 테이블을 추출하기 위해 TableAbsorber 및 AbsorbedTable 클래스를 사용하여 PDF의 테이블을 처리하는 Java* 코드가 여기에 제공됩니다. 또한 셀 데이터를 가져오기 위해 TextFragment 클래스를 사용하기 전에 행과 열을 관리하기 위해 AbsorbedRow 및 AbsorbedCell 클래스를 사용합니다. 또한 글꼴, 단락, 텍스트 및 텍스트 조각과 같은 문서의 다양한 요소에 사용할 수 있는 다른 많은 흡수 클래스가 있습니다.
이 기사에서는 Java PDF 테이블 추출을 사용하여 몇 단계로 수행할 수 있다고 설명했습니다. PDF 파일에서 텍스트와 이미지를 읽는 방법을 배우려면 Java에서 PDF 파일을 읽는 방법에 있는 문서를 참조하세요.