Este tutorial básico orienta você sobre como converter PDF em arquivo de texto usando C#, incluindo as definições de configuração e um trecho de código executável. Ele demonstra como usar o conversor C# PDF to Text pode ser criado com algumas chamadas de API. Você só precisa carregar o documento de origem PDF e salvar o arquivo de saída Text.
Etapas para converter PDF em arquivo de texto usando C#
- Adicione uma referência a Aspose.PDF for .NET em seu aplicativo para converter PDF em um arquivo de texto
- Carregue o arquivo PDF de origem usando a instância de classe Document para criar um arquivo de texto
- Crie uma instância da classe TextAbsorber e extraia o texto de todas as páginas
- Salve o arquivo de texto de saída
Para escrever a configuração do aplicativo PDF to Text Converter baseado em C# no .NET framework e um procedimento passo a passo é fornecido aqui. Como primeiro passo, configure rapidamente a API e carregue o arquivo PDF de entrada. Em seguida, procedemos à extração do texto de todas as suas páginas e gravamos o texto extraído em um arquivo ou fluxo conforme os requisitos.
Trecho de código para converter PDF em texto usando C#
using System.IO; | |
using Aspose.Pdf; | |
using Aspose.Pdf.Text; | |
namespace ConvertPdfToTextUsingCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Instantiate the license to avoid evaluation limitations while converting a PDF to Text | |
License PdfToTextLicense = new License(); | |
PdfToTextLicense.SetLicense("Aspose.pdf.lic"); | |
// Open document | |
Document pdfDocument = new Document("PDFtoText.pdf"); | |
// Instantiate a TextAbsorber class object for extracting the text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure),new TextSearchOptions(new Rectangle(5,5,50,50))); | |
// Call the Accept() function to parse all the pages for reading text | |
pdfDocument.Pages.Accept(textAbsorber); | |
// Get extracted text as string | |
string ExtractedText = textAbsorber.Text; | |
// Save the text file | |
File.WriteAllText("PDFtoText.txt" , ExtractedText); | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
O uso do recurso C# convert PDF to Text pode ser integrado em seus aplicativos junto com o controle sobre a leitura de texto do PDF de origem, como você pode ler o texto de todas as páginas ou de uma página especificada. Da mesma forma, se você quiser ler o texto de uma área retangular específica na página do PDF, também terá a liberdade de definir essa área retangular. Diferentes modos também podem ser definidos para converter PDF em texto como Pure, Raw e MemorySaving.
Neste artigo, aprendemos como o código PDF to Text C# pode ser usado em seus aplicativos .NET. No entanto, se você quiser explorar a conversão de PDF para documentos HTML, consulte o artigo em como converter PDF para HTML usando C#.