이 기본 자습서는 구성 설정 및 실행 가능한 코드 조각을 포함하여 C#을 사용하여 PDF를 텍스트 파일로 변환하는 방법을 안내합니다. C# PDF to Text 변환기를 사용하여 몇 번의 API 호출로 생성할 수 있는 방법을 보여줍니다. 소스 PDF 문서를 로드하고 출력 Text 파일을 저장하기만 하면 됩니다.
C#을 사용하여 PDF를 텍스트 파일로 변환하는 단계
- PDF를 텍스트 파일로 변환하려면 애플리케이션에 Aspose.PDF for .NET에 대한 참조를 추가하세요.
- 텍스트 파일 생성을 위한 Document 클래스 인스턴스를 사용하여 소스 PDF 파일 로드
- TextAbsorber 클래스의 인스턴스를 만들고 모든 페이지에서 텍스트 추출
- 출력 텍스트 파일 저장
.NET 프레임워크에서 PDF를 텍스트로 변환하는 변환기 C# 기반 응용 프로그램 구성 및 단계별 절차를 작성하기 위해 여기에 제공됩니다. 첫 번째 단계로 API를 빠르게 구성하고 입력된 PDF 파일을 로드합니다. 다음으로 모든 페이지에서 텍스트를 추출하고 추출된 텍스트를 요구 사항에 따라 파일이나 스트림에 씁니다.
C#을 사용하여 PDF를 텍스트로 변환하는 코드 조각
using System.IO; | |
using Aspose.Pdf; | |
using Aspose.Pdf.Text; | |
namespace ConvertPdfToTextUsingCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Instantiate the license to avoid evaluation limitations while converting a PDF to Text | |
License PdfToTextLicense = new License(); | |
PdfToTextLicense.SetLicense("Aspose.pdf.lic"); | |
// Open document | |
Document pdfDocument = new Document("PDFtoText.pdf"); | |
// Instantiate a TextAbsorber class object for extracting the text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure),new TextSearchOptions(new Rectangle(5,5,50,50))); | |
// Call the Accept() function to parse all the pages for reading text | |
pdfDocument.Pages.Accept(textAbsorber); | |
// Get extracted text as string | |
string ExtractedText = textAbsorber.Text; | |
// Save the text file | |
File.WriteAllText("PDFtoText.txt" , ExtractedText); | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
C#을 사용하여 PDF를 텍스트로 변환 기능은 모든 페이지 또는 지정된 페이지에서 텍스트를 읽을 수 있는 것처럼 소스 PDF에서 텍스트 읽기에 대한 제어와 함께 애플리케이션에 통합할 수 있습니다. 마찬가지로 PDF 페이지의 특정 사각형 영역에서 텍스트를 읽으려면 해당 사각형 영역도 정의할 수 있습니다. PDF를 Pure, Raw 및 MemorySaving과 같은 텍스트로 변환하기 위해 다양한 모드를 정의할 수도 있습니다.
이 기사에서는 PDF to Text C# 코드를 .NET 애플리케이션에서 사용하는 방법을 배웠습니다. 그러나 PDF를 HTML 문서로 변환하는 방법에 대해 알아보려면 C#을 사용하여 PDF를 HTML로 변환하는 방법에 대한 문서를 참조하세요.