Como converter PDF para arquivo de texto usando C#

Este tutorial básico orienta você sobre como converter PDF em arquivo de texto usando C#, incluindo as definições de configuração e um trecho de código executável. Ele demonstra como usar o conversor C# PDF to Text pode ser criado com algumas chamadas de API. Você só precisa carregar o documento de origem PDF e salvar o arquivo de saída Text.

Etapas para converter PDF em arquivo de texto usando C#

  1. Adicione uma referência a Aspose.PDF for .NET em seu aplicativo para converter PDF em um arquivo de texto
  2. Carregue o arquivo PDF de origem usando a instância de classe Document para criar um arquivo de texto
  3. Crie uma instância da classe TextAbsorber e extraia o texto de todas as páginas
  4. Salve o arquivo de texto de saída

Para escrever a configuração do aplicativo PDF to Text Converter baseado em C# no .NET framework e um procedimento passo a passo é fornecido aqui. Como primeiro passo, configure rapidamente a API e carregue o arquivo PDF de entrada. Em seguida, procedemos à extração do texto de todas as suas páginas e gravamos o texto extraído em um arquivo ou fluxo conforme os requisitos.

Trecho de código para converter PDF em texto usando C#

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
namespace ConvertPdfToTextUsingCSharp
{
class Program
{
static void Main(string[] args)
{
// Instantiate the license to avoid evaluation limitations while converting a PDF to Text
License PdfToTextLicense = new License();
PdfToTextLicense.SetLicense("Aspose.pdf.lic");
// Open document
Document pdfDocument = new Document("PDFtoText.pdf");
// Instantiate a TextAbsorber class object for extracting the text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure),new TextSearchOptions(new Rectangle(5,5,50,50)));
// Call the Accept() function to parse all the pages for reading text
pdfDocument.Pages.Accept(textAbsorber);
// Get extracted text as string
string ExtractedText = textAbsorber.Text;
// Save the text file
File.WriteAllText("PDFtoText.txt" , ExtractedText);
System.Console.WriteLine("Done");
}
}
}

O uso do recurso C# convert PDF to Text pode ser integrado em seus aplicativos junto com o controle sobre a leitura de texto do PDF de origem, como você pode ler o texto de todas as páginas ou de uma página especificada. Da mesma forma, se você quiser ler o texto de uma área retangular específica na página do PDF, também terá a liberdade de definir essa área retangular. Diferentes modos também podem ser definidos para converter PDF em texto como Pure, Raw e MemorySaving.

Neste artigo, aprendemos como o código PDF to Text C# pode ser usado em seus aplicativos .NET. No entanto, se você quiser explorar a conversão de PDF para documentos HTML, consulte o artigo em como converter PDF para HTML usando C#.

 Português