이 빠른 자습서는 Python에서 PDF 콘텐츠를 읽는 방법을 안내합니다. 응용 프로그램에서 사용할 모든 리소스, 필요한 클래스 및 메서드를 소개합니다. 또한 다른 타사 도구를 사용하지 않고 몇 줄의 코드만으로 Python을 사용하여 PDF를 읽는 실행 가능한 샘플 코드가 포함되어 있습니다.
Python으로 PDF를 읽는 단계
- PDF 텍스트를 읽으려면 IDE를 .NET을 통해 Python용 Aspose.PDF 사용로 설정하세요.
- 데이터를 읽을 Document 개체를 사용하여 원본 PDF 파일을 로드합니다.
- TextAbsorber 개체를 인스턴스화하여 PDF에서 텍스트 추출
- 로드된 PDF 파일의 전체 텍스트를 읽으려면 accept() 메서드를 호출합니다.
- TextAbsorber 객체의 Text 속성을 사용하여 추출된 텍스트를 표시합니다.
이 단계는 PDF 파일을 로드하는 Document 클래스, PDF에서 텍스트를 가져오는 TextAbsorber 클래스 개체, 실제로 텍스트 속성을 채우는 accept() 메서드를 도입하여 Python에서 PDF 파일을 읽는 프로세스를 요약합니다. TextAbsorber 객체. accept() 메서드가 호출되면 추가 처리를 위해 text 속성의 문자열 데이터를 인쇄하거나 구문 분석할 수 있습니다.
Python에서 PDF 파일을 읽는 코드
위의 코드 세그먼트는 Python을 사용하여 PDF 파일에서 데이터를 추출하는 프로세스를 보여줍니다. TextAbsorber 클래스는 TextFormattingMode를 지원하여 순수, 원시, 병합 또는 메모리 절약 모드에서 텍스트를 추출합니다. 또한 TextAbsorber 클래스는 PDF에서 데이터를 가져오는 동안 오류 목록을 반환하고 PDF 페이지에서 텍스트를 가져오는 사각형 정의를 지원합니다.
이 기사에서는 Python에서 PDF를 읽는 방법을 배웠습니다. PDF에서 책갈피를 읽는 과정을 알아보려면 Python을 사용하여 PDF에서 책갈피를 읽는 방법의 문서를 참조하세요.