Como extrair texto de PDF digitalizado em Java

Este tutorial rápido fornece detalhes sobre como extrair texto de PDF digitalizado em Java. Você pode configurar esse processo de extração de texto de PDF digitalizado em Java definindo os parâmetros de detecção. A opção também está disponível para fazer uma seleção entre a velocidade ou precisão dependendo da qualidade PDF e outros requisitos do aplicativo.

Etapas para extrair texto de PDF digitalizado em Java

  1. No repositório Maven, configure Aspose.OCR em seu projeto para ler o texto PDF digitalizado
  2. Inicialize o objeto AsposeOcrPdf para ler o texto do PDF
  3. Instancie o objeto de classe DocumentRecognitionSettings para definir os parâmetros de reconhecimento
  4. Defina a página inicial e o número de páginas no PDF para leitura de texto
  5. Para aumentar a velocidade de detecção, defina o sinalizador de áreas de detecção como falso
  6. Chame a função RecognizePdf para ler todo o texto de acordo com a configuração acima
  7. Iterar por todos os resultados extraídos das páginas PDF e exibi-los no console

Durante o processo de digitalizar texto de PDF em Java, é iniciado um objeto AsposeOCRPdf que realmente contém recursos para reconhecer texto do PDF. Ele suporta a configuração do processo de detecção, como o número da página inicial, o número de páginas PDF a serem lidas e a opção de definir áreas de detecção para controlar a velocidade e a precisão. Por fim, analisamos a coleção de resultados verificados de cada página e os exibimos no console.

Código para converter PDF digitalizado em texto em Java

Este código usa AsposeOCRPdf para obter texto de PDF digitalizado em Java. O objeto de classe DocumentRecognitionSettings contém opções para definir a configuração de páginas usando o construtor conforme demonstrado neste código de exemplo ou definindo o StartPage e o PagesNumber separadamente. Você também pode definir o idioma, as correções de distorção da imagem e a contagem de linhas para detecção paralela de texto do PDF digitalizado.

Neste artigo, aprendemos como extrair texto de PDF digitalizado em Java junto com a configuração do processo de detecção. No entanto, se você quiser extrair texto de uma imagem, consulte o artigo em como extrair texto de imagem usando Java.

 Português