C#에서 스캔한 PDF에서 텍스트를 추출하는 방법

이 단계별 자습서에서는 C#에서 스캔한 PDF에서 텍스트를 추출하는 방법을 보여줍니다. 문서를 PDF로 스캔하면 해당 페이지가 PDF 파일 내에 스캔된 이미지로 추가됩니다. 따라서 스캔한 PDF 파일에서 텍스트를 추출하려면 실제로 광학 문자 인식(OCR)을 적용하여 C#의 PDF 이미지에서 텍스트를 추출해야 합니다.

C#에서 스캔한 PDF에서 텍스트를 추출하는 단계

  1. NuGet.org 패키지 관리자에서 Aspose.OCR for .NET 다운로드
  2. Aspose.OCR namespace에 대한 참조 추가
  3. SetLicense 메서드를 사용하여 라이선스 코드 적용
  4. AsposeOcr 클래스의 인스턴스 시작
  5. DocumentRecognitionSettings class를 사용하여 인식 설정 지정
  6. RecognizePDF 방법을 사용하여 모든 PDF 페이지 추출
  7. RecognitionText 속성을 사용하여 각 PDF 페이지에서 텍스트 가져오기

위 단계의 도움으로 C#에서 스캔한 PDF의 텍스트를 빠르고 쉽게 읽을 수 있습니다. 앞서 C#의 이미지에서 텍스트 추출 방법을 알려 드렸습니다. 그러나 이 예제는 C#의 PDF에서 텍스트를 가져오는 데 도움이 됩니다.

C#에서 스캔한 PDF에서 텍스트를 추출하는 코드

위의 C# PDF 예제에서 텍스트 가져오기는 간단하고 이해하기 쉽습니다. 스캔한 PDF 파일을 읽고 각 페이지에서 텍스트를 추출하기만 하면 됩니다. 그러나 여기서 이해해야 할 한 가지 중요한 점은 DetectArea 속성입니다. true로 설정하면 정확도가 높아지지만 PDF 처리 속도가 느려집니다. 그러나 false로 설정하면 속도가 향상되고 정확도가 약간 떨어질 수 있습니다. 따라서 상황에 따라 두 가지 옵션 중 하나를 선택해야 합니다.

 한국인