C#을 사용하여 PDF를 텍스트 파일로 변환하는 방법

이 기본 자습서는 구성 설정 및 실행 가능한 코드 조각을 포함하여 C#을 사용하여 PDF를 텍스트 파일로 변환하는 방법을 안내합니다. C# PDF to Text 변환기를 사용하여 몇 번의 API 호출로 생성할 수 있는 방법을 보여줍니다. 소스 PDF 문서를 로드하고 출력 Text 파일을 저장하기만 하면 됩니다.

C#을 사용하여 PDF를 텍스트 파일로 변환하는 단계

  1. PDF를 텍스트 파일로 변환하려면 애플리케이션에 Aspose.PDF for .NET에 대한 참조를 추가하세요.
  2. 텍스트 파일 생성을 위한 Document 클래스 인스턴스를 사용하여 소스 PDF 파일 로드
  3. TextAbsorber 클래스의 인스턴스를 만들고 모든 페이지에서 텍스트 추출
  4. 출력 텍스트 파일 저장

.NET 프레임워크에서 PDF를 텍스트로 변환하는 변환기 C# 기반 응용 프로그램 구성 및 단계별 절차를 작성하기 위해 여기에 제공됩니다. 첫 번째 단계로 API를 빠르게 구성하고 입력된 PDF 파일을 로드합니다. 다음으로 모든 페이지에서 텍스트를 추출하고 추출된 텍스트를 요구 사항에 따라 파일이나 스트림에 씁니다.

C#을 사용하여 PDF를 텍스트로 변환하는 코드 조각

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
namespace ConvertPdfToTextUsingCSharp
{
class Program
{
static void Main(string[] args)
{
// Instantiate the license to avoid evaluation limitations while converting a PDF to Text
License PdfToTextLicense = new License();
PdfToTextLicense.SetLicense("Aspose.pdf.lic");
// Open document
Document pdfDocument = new Document("PDFtoText.pdf");
// Instantiate a TextAbsorber class object for extracting the text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure),new TextSearchOptions(new Rectangle(5,5,50,50)));
// Call the Accept() function to parse all the pages for reading text
pdfDocument.Pages.Accept(textAbsorber);
// Get extracted text as string
string ExtractedText = textAbsorber.Text;
// Save the text file
File.WriteAllText("PDFtoText.txt" , ExtractedText);
System.Console.WriteLine("Done");
}
}
}

C#을 사용하여 PDF를 텍스트로 변환 기능은 모든 페이지 또는 지정된 페이지에서 텍스트를 읽을 수 있는 것처럼 소스 PDF에서 텍스트 읽기에 대한 제어와 함께 애플리케이션에 통합할 수 있습니다. 마찬가지로 PDF 페이지의 특정 사각형 영역에서 텍스트를 읽으려면 해당 사각형 영역도 정의할 수 있습니다. PDF를 Pure, Raw 및 MemorySaving과 같은 텍스트로 변환하기 위해 다양한 모드를 정의할 수도 있습니다.

이 기사에서는 PDF to Text C# 코드를 .NET 애플리케이션에서 사용하는 방법을 배웠습니다. 그러나 PDF를 HTML 문서로 변환하는 방법에 대해 알아보려면 C#을 사용하여 PDF를 HTML로 변환하는 방법에 대한 문서를 참조하세요.

 한국인