Este tutorial rápido explica como converter PDF para Text usando Python. Ele cobre os detalhes da configuração do sistema e o processo passo a passo, juntamente com um código de exemplo para realizar a conversão baseada em PDF para Text Python. Além disso, você pode gravar o texto extraído no arquivo ou no console de acordo com suas necessidades.
Etapas para converter PDF em texto em Python
- Configure o sistema instalando a biblioteca Aspose.PDF para Python via .NET
- Carregue o arquivo PDF de origem usando a classe Document para convertê-lo em um arquivo de texto
- Crie um objeto de classe TextAbsorber para buscar texto com o método Page.Accept()
- Crie um arquivo de texto e escreva a string de texto de saída no arquivo
Estas etapas resumem como usar a conversão Python PDF para TXT pode ser realizada com algumas chamadas de API. Na primeira etapa, carregue o arquivo PDF de entrada e inicialize um objeto de TextAbsorber que pode ser usado para buscar texto nas páginas. Então você precisa obter o texto extraído e gravá-lo em um arquivo TXT enquanto especifica o caminho e o nome do arquivo.
Código para converter PDF em texto em Python
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load input PDF document | |
document = pdf.Document("Combine.pdf") | |
# Initialize TextAbsorber object | |
textAbsorber = pdf.text.TextAbsorber() | |
# Call Page.Accept() method to fetch text | |
document.pages.accept(textAbsorber) | |
# Get the extracted text string | |
text = textAbsorber.text | |
# Create a TXT file and write the string | |
text_file = open("PDFtoTXT.txt", "wt") | |
n = text_file.write(text) | |
text_file.close() | |
print("Conversion Completed Successfully") |
Este trecho de código mostra como criar um conversor PDF para texto usando Python. Ele carrega o documento PDF de origem usando a classe Document. Posteriormente, você pode buscar o texto de todas as páginas do arquivo PDF com o método accept ou ler a cadeia de texto de uma página específica especificando o número da página. Finalmente, escreva a string de texto em um arquivo e exporte o arquivo de texto para o disco.
Neste artigo, aprendemos como usar a renderização Python PDF to Text pode ser feita com seus aplicativos. No entanto, se você quiser aprender a conversão de PDF para Word, leia o tutorial em como converter PDF para Word usando Python.