이 간단한 튜토리얼은 Python에서 PDF 테이블을 읽는 방법 과정을 설명합니다. 개발 환경을 설정하기 위한 모든 기본 정보, 응용 프로그램을 작성하기 위한 일련의 단계 및 Python에서 PDF에서 테이블을 추출하는 실행 가능한 샘플 코드를 제공합니다. 테이블의 각 셀에 액세스한 다음 그 안의 모든 데이터를 가져오는 지침을 받게 됩니다.
Python을 사용하여 PDF에서 테이블 데이터를 추출하는 단계
- 테이블을 읽으려면 환경을 .NET을 통해 Python용 Aspose.PDF 사용로 설정하세요.
- 테이블이 있는 Document 클래스를 사용하여 원본 PDF 파일 로드
- 로드된 PDF 파일에서 테이블을 읽기 위해 TableAbsorber 클래스 개체의 인스턴스를 만듭니다.
- 페이지를 선택하고 그 안에 있는 모든 테이블을 구문 분석합니다.
- 첫 번째 테이블에 액세스하고 행과 열을 분석하여 셀의 모든 TextFragment 인스턴스를 가져옵니다.
- 모든 텍스트 조각을 파싱하고 각 조각에 텍스트를 표시합니다.
이 단계는 Python에서 PDF 테이블을 읽는 과정을 설명합니다. 프로세스는 PDF 파일을 로드한 다음 PDF 파일에서 테이블을 읽는 메서드가 있는 TableAbsorber 개체를 생성하여 시작됩니다. 특정 페이지에서 모든 테이블이 구문 분석되면 컬렉션에서 첫 번째 테이블에 액세스한 다음 각 행과 열을 구문 분석하여 데이터를 가져오기 위한 텍스트 조각 모음을 가져옵니다.
Python을 사용하여 PDF에서 테이블을 추출하는 코드
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load source PDF | |
pdfDocument = pdf.Document("PdfWithTable.pdf") | |
# Declare and initialize TableAbsorber object | |
tableAbsorber = pdf.text.TableAbsorber() | |
# Parse all the tables | |
tableAbsorber.visit(pdfDocument.pages[1]) | |
# Get a reference to the first table | |
absorbedTable = tableAbsorber.table_list[0] | |
# Iterate through all the rows | |
for pdfTableRow in absorbedTable.row_list: | |
# Iterate through all the columns | |
for pdfTableCell in pdfTableRow.cell_list: | |
# Fetch the text fragments | |
textFragmentCollection = pdfTableCell.text_fragments | |
# Iterate through the text fragments | |
for textFragment in textFragmentCollection: | |
# Display the text | |
print(textFragment.text) | |
print("Data read successfully from the table") |
위의 코드는 python read pdf table을 사용하여 처리를 위해 데이터를 가져오는 방법을 보여줍니다. TableAbsorber 클래스에서 visit() 메서드를 호출하면 개별 테이블에 액세스하는 데 사용되는 table_list 배열을 채웁니다. 테이블 컬렉션의 각 테이블에는 열 컬렉션에 대한 액세스를 제공하는 cell_list 속성이 있는 row_list 속성이 있으며 마지막으로 text_fragments 속성에 도달하여 특정 셀의 데이터 컬렉션을 가져옵니다.
이 기사는 PDF Python에서 테이블을 추출하는 것이 쉽게 사용될 수 있음을 알려줍니다. PDF에서 책갈피를 읽는 과정을 알아보려면 Python을 사용하여 PDF에서 책갈피를 읽는 방법의 문서를 참조하세요.