Como ler arquivo PDF em Java

Este breve tutorial orienta você sobre como ler arquivos PDF em Java. Ele contém Código Java para ler arquivo PDF de forma que primeiro você leia o texto de PDF em Java em uma string e depois busque todas as imagens do arquivo PDF para salvá-las no disco como JPG. Não há necessidade de instalar nenhuma ferramenta de terceiros para ler PDF em Java.

Passos para ler o arquivo PDF em Java

  1. Configure Aspose.PDF em seu projeto usando o repositório Maven para ler o arquivo PDF
  2. Carregue o arquivo PDF de amostra no objeto de classe Document
  3. Instancie o objeto de classe TextAbsorber que pode ler o texto inteiro do arquivo PDF
  4. Leia o texto PDF do arquivo carregado usando o objeto de classe TextAbsorber
  5. Exibir todo o texto lido do arquivo PDF no console
  6. Iterar por todas as páginas do arquivo PDF para acessar as imagens
  7. Analise todas as imagens em cada coleção de imagens de página e salve-as no disco

Neste rápido tutorial passo a passo, primeiro carregamos o arquivo PDF de destino e, em seguida, iniciamos o objeto de classe TextAbsorber que é capaz de pesquisar texto em todas as páginas do PDF. Todo esse texto é retornado em uma string que pode ser exibida ou processada conforme o requisito. Da mesma forma, podemos analisar todas as imagens na coleção de imagens e salvá-las no disco em qualquer formato, conforme salvamos como JPG neste tutorial.

Código para ler PDF usando Java

Neste código de amostra, usamos a classe TextAbsorber e a função getImages() de Page.getResources() para ler PDF usando Java. O objeto TextAbsorber é usado para ler o texto pela função accept no PDF PageCollection. Enquanto a função getImages() da coleção getResources() retorna todas as imagens em uma página.

Observe que essas etapas para ler PDF em Java podem ser executadas em qualquer um dos sistemas operacionais como Windows, Linux ou macOS. Se você quiser saber mais sobre como trabalhar com arquivos PDF, consulte o artigo em como ler marcadores em PDF usando Java.

 Português