이 빠른 자습서에서는 Java로 스캔한 PDF에서 텍스트를 추출하는 방법에 대한 세부 정보를 제공합니다. 감지 매개변수를 설정하여 Java로 스캔한 PDF에서 텍스트 추출 프로세스를 구성할 수 있습니다. 이 옵션은 PDF 품질 및 기타 애플리케이션 요구 사항에 따라 속도 또는 정확도 중에서 선택할 수도 있습니다.
Java에서 스캔한 PDF에서 텍스트를 추출하는 단계
- Maven 저장소에서 스캔한 PDF 텍스트를 읽도록 프로젝트의 Aspose.OCR를 구성합니다.
- PDF에서 텍스트를 읽으려면 AsposeOcrPdf 개체를 초기화하세요.
- 인식 매개변수를 설정하기 위해 DocumentRecognitionSettings 클래스 개체를 인스턴스화합니다.
- 텍스트 읽기를 위한 PDF의 시작 페이지 및 페이지 수 설정
- 감지 속도를 높이려면 감지 영역 플래그를 false로 설정하십시오.
- 위의 구성에 따라 모든 텍스트를 읽으려면 RecognizePdf 함수를 호출하십시오.
- PDF 페이지에서 추출된 모든 결과를 반복하고 콘솔에 표시
Java에서 PDF의 텍스트를 스캔하는 과정에서 실제로 PDF의 텍스트를 인식하는 기능이 포함된 AsposeOCRPdf 개체가 시작됩니다. 시작 페이지 번호, 읽을 PDF 페이지 수, 속도 및 정확도 제어를 위한 감지 영역 설정 옵션과 같은 감지 프로세스 구성을 지원합니다. 마지막으로 각 페이지에서 스캔한 결과 모음을 구문 분석하여 콘솔에 표시합니다.
스캔한 PDF를 Java의 텍스트로 변환하는 코드
이 코드는 AsposeOCRPdf를 사용하여 Java로 스캔한 PDF에서 텍스트를 가져옵니다. DocumentRecognitionSettings 클래스 개체에는 이 샘플 코드에 표시된 대로 생성자를 사용하거나 StartPage 및 PagesNumber를 별도로 설정하여 페이지 구성을 설정하는 옵션이 포함되어 있습니다. 또한 스캔한 PDF에서 텍스트를 병렬로 감지하기 위해 언어, 이미지 왜곡 보정 및 스레드 수를 설정할 수도 있습니다.
이 기사에서는 검색 프로세스의 구성과 함께 Java에서 스캔한 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 그러나 이미지에서 텍스트를 추출하려면 Java를 사용하여 이미지에서 텍스트를 추출하는 방법에 대한 문서를 참조하세요.