Este guia contém informações sobre como extrair texto de PDF usando Python. Ele tem todos os detalhes para definir o ambiente, uma lista de etapas e um código de exemplo para extrair texto de PDF com algumas chamadas de API usando Python. Você aprenderá a ler dados de um ou vários arquivos PDF e exibir o texto retornado desse processo.
Etapas para obter texto de PDF usando Python
- Defina o ambiente para usar Aspose.OCR for Python via .NET para ler um PDF
- Crie o objeto AsposeOcr para extrair texto de um PDF
- Crie o objeto de classe OcrInput e defina o tipo de entrada como PDF
- Adicionar arquivos PDF à coleção de entrada
- Chame o método recognize() para ler dados da coleção PDF
- Exibir o texto de reconhecimento da coleção retornada
Estas etapas resumem o processo para extrair texto de um documento PDF usando Python. Crie o objeto de classe AsposeOcr que contém métodos para reconhecer texto de PDF e muitos outros formatos. Use o objeto de classe OcrInput para definir o tipo de entrada como PDF e adicionar a coleção de entrada de arquivos PDF. Por fim, chame o método recognize() e exiba o texto retornado.
Código para extrair texto de PDF usando Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
Este código demonstra o desenvolvimento de um leitor de PDF OCR usando Python. A classe AsposeOcr contém uma série de propriedades e métodos para personalizar o processo de reconhecimento, como você pode calcular a inclinação, corrigir as grafias no texto detectado e detectar retângulos. Se você adicionar vários arquivos PDF, todo o texto dos PDFs será retornado como uma coleção de strings que podem ser exibidas iterando a coleção retornada.
Este artigo nos ensinou o processo para extrair texto de PDF. Para extrair texto de imagens, consulte o artigo em Extrair texto de imagem usando Python.