이 빠른 튜토리얼은 Python을 사용하여 PDF을 Text로 변환하는 방법을 설명합니다. PDF에서 Text Python 기반 변환을 수행하기 위한 샘플 코드와 함께 시스템 구성 세부 사항 및 단계별 프로세스를 다룹니다. 또한 요구 사항에 따라 추출된 텍스트를 파일이나 콘솔에 쓸 수 있습니다.
Python에서 PDF를 텍스트로 변환하는 단계
- .NET을 통한 Python용 Aspose.PDF 라이브러리를 설치하여 시스템 구성
- 텍스트 파일로 변환하기 위해 Document 클래스를 사용하여 원본 PDF 파일을 로드합니다.
- Page.Accept() 메서드로 텍스트를 가져오는 TextAbsorber 클래스 객체를 만듭니다.
- 텍스트 파일을 만들고 파일에 출력 텍스트 문자열 쓰기
이 단계는 몇 가지 API 호출로 Python PDF에서 TXT로 변환을 수행하는 방법을 요약합니다. 첫 번째 단계에서 입력 PDF 파일을 로드하고 페이지에서 텍스트를 가져오는 데 사용할 수 있는 TextAbsorber의 개체를 초기화합니다. 그런 다음 추출된 텍스트를 가져와서 파일 경로와 이름을 지정하면서 TXT 파일에 써야 합니다.
Python에서 PDF를 텍스트로 변환하는 코드
이 코드 스니펫은 Python*을 사용하여 *PDF를 텍스트로 변환하는 변환기를 만드는 방법을 보여줍니다. Document 클래스를 사용하여 원본 PDF 문서를 로드합니다. 이후에 accept 메서드를 사용하여 PDF 파일의 모든 페이지에서 텍스트를 가져오거나 페이지 번호를 지정하여 특정 페이지에서 텍스트 문자열을 읽을 수 있습니다. 마지막으로 텍스트 문자열을 파일에 쓰고 텍스트 파일을 디스크로 내보냅니다.
이 기사에서는 애플리케이션에서 Python PDF를 텍스트로 렌더링하는 방법을 배웠습니다. 그러나 PDF를 Word로 변환하는 방법을 배우려면 Python을 사용하여 PDF를 Word로 변환하는 방법에서 자습서를 읽으십시오.