Extrair texto de PDF usando Python

Este guia contém informações sobre como extrair texto de PDF usando Python. Ele tem todos os detalhes para definir o ambiente, uma lista de etapas e um código de exemplo para extrair texto de PDF com algumas chamadas de API usando Python. Você aprenderá a ler dados de um ou vários arquivos PDF e exibir o texto retornado desse processo.

Etapas para obter texto de PDF usando Python

  1. Defina o ambiente para usar Aspose.OCR for Python via .NET para ler um PDF
  2. Crie o objeto AsposeOcr para extrair texto de um PDF
  3. Crie o objeto de classe OcrInput e defina o tipo de entrada como PDF
  4. Adicionar arquivos PDF à coleção de entrada
  5. Chame o método recognize() para ler dados da coleção PDF
  6. Exibir o texto de reconhecimento da coleção retornada

Estas etapas resumem o processo para extrair texto de um documento PDF usando Python. Crie o objeto de classe AsposeOcr que contém métodos para reconhecer texto de PDF e muitos outros formatos. Use o objeto de classe OcrInput para definir o tipo de entrada como PDF e adicionar a coleção de entrada de arquivos PDF. Por fim, chame o método recognize() e exiba o texto retornado.

Código para extrair texto de PDF usando Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Este código demonstra o desenvolvimento de um leitor de PDF OCR usando Python. A classe AsposeOcr contém uma série de propriedades e métodos para personalizar o processo de reconhecimento, como você pode calcular a inclinação, corrigir as grafias no texto detectado e detectar retângulos. Se você adicionar vários arquivos PDF, todo o texto dos PDFs será retornado como uma coleção de strings que podem ser exibidas iterando a coleção retornada.

Este artigo nos ensinou o processo para extrair texto de PDF. Para extrair texto de imagens, consulte o artigo em Extrair texto de imagem usando Python.

 Português