이 단계별 자습서에서는 C#에서 스캔한 PDF에서 텍스트를 추출하는 방법을 보여줍니다. 문서를 PDF로 스캔하면 해당 페이지가 PDF 파일 내에 스캔된 이미지로 추가됩니다. 따라서 스캔한 PDF 파일에서 텍스트를 추출하려면 실제로 광학 문자 인식(OCR)을 적용하여 C#의 PDF 이미지에서 텍스트를 추출해야 합니다.
C#에서 스캔한 PDF에서 텍스트를 추출하는 단계
- NuGet.org 패키지 관리자에서 Aspose.OCR for .NET 다운로드
- Aspose.OCR namespace에 대한 참조 추가
- SetLicense 메서드를 사용하여 라이선스 코드 적용
- AsposeOcr 클래스의 인스턴스 시작
- DocumentRecognitionSettings class를 사용하여 인식 설정 지정
- RecognizePDF 방법을 사용하여 모든 PDF 페이지 추출
- RecognitionText 속성을 사용하여 각 PDF 페이지에서 텍스트 가져오기
위 단계의 도움으로 C#에서 스캔한 PDF의 텍스트를 빠르고 쉽게 읽을 수 있습니다. 앞서 C#의 이미지에서 텍스트 추출 방법을 알려 드렸습니다. 그러나 이 예제는 C#의 PDF에서 텍스트를 가져오는 데 도움이 됩니다.
C#에서 스캔한 PDF에서 텍스트를 추출하는 코드
위의 C# PDF 예제에서 텍스트 가져오기는 간단하고 이해하기 쉽습니다. 스캔한 PDF 파일을 읽고 각 페이지에서 텍스트를 추출하기만 하면 됩니다. 그러나 여기서 이해해야 할 한 가지 중요한 점은 DetectArea 속성입니다. true로 설정하면 정확도가 높아지지만 PDF 처리 속도가 느려집니다. 그러나 false로 설정하면 속도가 향상되고 정확도가 약간 떨어질 수 있습니다. 따라서 상황에 따라 두 가지 옵션 중 하나를 선택해야 합니다.