Este tutorial rápido orienta você sobre como ler o conteúdo PDF em Python. Apresenta todos os recursos, classes e métodos necessários a serem utilizados na aplicação. Ele também contém um código de exemplo executável para ler pdf usando python com a ajuda de poucas linhas de código, sem usar nenhuma outra ferramenta de terceiros.
Etapas para ler PDF com Python
- Defina o IDE como use Aspose.PDF para Python via .NET para ler o texto PDF
- Carregue o arquivo PDF de origem usando o objeto Document cujos dados devem ser lidos
- Instancie um objeto TextAbsorber para extrair texto do PDF
- Chame o método accept() para ler todo o texto no arquivo PDF carregado
- Exiba o texto extraído usando a propriedade Text do objeto TextAbsorber
Estas etapas resumem o processo para ler um arquivo PDF em Python introduzindo a classe Document para carregar o arquivo PDF, o objeto de classe TextAbsorber para buscar o texto do PDF e o método accept() que realmente preenche a propriedade text do Objeto TextAbsorber. Depois que o método accept() é chamado, os dados da string na propriedade text podem ser impressos ou analisados para qualquer processamento posterior.
Código para ler arquivo PDF em Python
import aspose.pdf as pdf | |
# Load License | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load the PDF file | |
pdfFile = pdf.Document("ImageAndText.pdf") | |
# Initialize TextAbsorber object | |
textAbsorber = pdf.text.TextAbsorber() | |
# Call Page.Accept() method to fetch text | |
pdfFile.pages.accept(textAbsorber) | |
# Display the text | |
print(textAbsorber.text) | |
print("Process completed") |
O segmento de código acima demonstra o processo para extrair dados do arquivo PDF usando Python. A classe TextAbsorber oferece suporte a TextFormattingMode para extrair texto no modo puro, bruto, nivelado ou de economia de memória. Além disso, a classe TextAbsorber retorna uma lista de erros ao buscar os dados do PDF e suporta a definição de um retângulo dentro do qual o texto é buscado na página do PDF.
Este artigo nos ensinou a ler um PDF em Python. Se você quiser aprender o processo de leitura de favoritos de um PDF, consulte o artigo em como ler marcadores em PDF usando Python.