이 문서는 Python을 사용하여 PDF에서 Excel로 테이블을 추출하는 방법을 설명합니다. Aspose.PDF와 Aspose.Cells 두 제품을 모두 활용하는 자세한 내용, 단계 목록, 그리고 Python을 사용하여 PDF에서 Excel 테이블을 추출하는 샘플 코드를 포함하고 있습니다. 샘플 코드는 PDF 페이지의 테이블을 Excel 시트로 옮기는 전체 과정을 시연합니다.
Python을 사용하여 PDF에서 Excel로 테이블 추출 단계
- 환경을 설정하여 Aspose.Total For Python via .NET를 설치합니다.
- 관련 가져온 라이브러리(Aspose.셀 및 Aspose.PDF)에 대한 라이선스를 적용합니다.
- Document 클래스 객체를 사용하여 표가 포함된 원본 PDF 파일을 로드합니다.
- Workbook 클래스를 사용하여 빈 Excel 파일을 만들고 첫 번째 시트의 이름을 설정합니다.
- PDF 파일의 페이지 컬렉션에 있는 각 페이지를 반복합니다
- 테이블 컬렉션에 접근하고 테이블의 각 셀을 파싱합니다
- PDF 셀에서 텍스트를 가져와 Excel 시트의 해당 셀에 복사합니다.
- PDF의 표 데이터를 사용하여 Excel 파일을 디스크에 저장합니다
이 단계들은 Python을 사용하여 PDF 테이블에서 Excel로 데이터를 추출하는 과정을 포함합니다. 필요한 라이브러리를 가져오고, 원본 PDF 파일을 로드한 뒤, 각 페이지와 그 페이지의 테이블 컬렉션에 접근하여 모든 테이블을 파싱합니다. 마지막으로 PDF 테이블의 각 셀에 접근하고 해당 내용을 출력 Excel 워크시트의 해당 셀에 저장합니다.
Python을 사용하여 PDF에서 표를 Excel로 가져오는 코드
이 코드는 Python을 사용하여 PDF에서 Excel로 표를 가져오는 방법을 보여줍니다. TableAbsorber 클래스의 use_flow_engine 옵션을 사용하여 PDF의 경계 없는 표를 감지하는 다른 표 인식 엔진을 시도해 볼 수 있습니다. 흡수된 셀의 text_state를 사용하여 글꼴 이름, 크기, 배경색, 전경색 및 굵은 이탤릭 스타일을 가져와 대상 Excel 셀 서식을 사용자 정의함으로써 두 파일 모두에서 표 형식을 유사하게 유지할 수 있습니다.
이 문서는 PDF 테이블을 Excel로 전송하는 과정을 이해하는 데 도움이 되었습니다. Aspose.Python용 PDF via .NET을 실행하기 위해 Python을 설치하려면, 다음 문서를 참조하십시오: Aspose.Python용 PDF를 통해.NET을 실행하기 위한 Python 설치 방법.