Java에서 스캔한 PDF에서 텍스트를 추출하는 방법

이 빠른 자습서에서는 Java로 스캔한 PDF에서 텍스트를 추출하는 방법에 대한 세부 정보를 제공합니다. 감지 매개변수를 설정하여 Java로 스캔한 PDF에서 텍스트 추출 프로세스를 구성할 수 있습니다. 이 옵션은 PDF 품질 및 기타 애플리케이션 요구 사항에 따라 속도 또는 정확도 중에서 선택할 수도 있습니다.

Java에서 스캔한 PDF에서 텍스트를 추출하는 단계

  1. Maven 저장소에서 스캔한 PDF 텍스트를 읽도록 프로젝트의 Aspose.OCR를 구성합니다.
  2. PDF에서 텍스트를 읽으려면 AsposeOcrPdf 개체를 초기화하세요.
  3. 인식 매개변수를 설정하기 위해 DocumentRecognitionSettings 클래스 개체를 인스턴스화합니다.
  4. 텍스트 읽기를 위한 PDF의 시작 페이지 및 페이지 수 설정
  5. 감지 속도를 높이려면 감지 영역 플래그를 false로 설정하십시오.
  6. 위의 구성에 따라 모든 텍스트를 읽으려면 RecognizePdf 함수를 호출하십시오.
  7. PDF 페이지에서 추출된 모든 결과를 반복하고 콘솔에 표시

Java에서 PDF의 텍스트를 스캔하는 과정에서 실제로 PDF의 텍스트를 인식하는 기능이 포함된 AsposeOCRPdf 개체가 시작됩니다. 시작 페이지 번호, 읽을 PDF 페이지 수, 속도 및 정확도 제어를 위한 감지 영역 설정 옵션과 같은 감지 프로세스 구성을 지원합니다. 마지막으로 각 페이지에서 스캔한 결과 모음을 구문 분석하여 콘솔에 표시합니다.

스캔한 PDF를 Java의 텍스트로 변환하는 코드

이 코드는 AsposeOCRPdf를 사용하여 Java로 스캔한 PDF에서 텍스트를 가져옵니다. DocumentRecognitionSettings 클래스 개체에는 이 샘플 코드에 표시된 대로 생성자를 사용하거나 StartPage 및 PagesNumber를 별도로 설정하여 페이지 구성을 설정하는 옵션이 포함되어 있습니다. 또한 스캔한 PDF에서 텍스트를 병렬로 감지하기 위해 언어, 이미지 왜곡 보정 및 스레드 수를 설정할 수도 있습니다.

이 기사에서는 검색 프로세스의 구성과 함께 Java에서 스캔한 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 그러나 이미지에서 텍스트를 추출하려면 Java를 사용하여 이미지에서 텍스트를 추출하는 방법에 대한 문서를 참조하세요.

 한국인