Ինչպես փոխարկել PDF-ը տեքստային ֆայլի C#-ի միջոցով

Այս հիմնական ձեռնարկը ձեզ ուղղորդում է, թե ինչպես փոխակերպել PDF-ը տեքստային ֆայլի՝ օգտագործելով C#՝ ներառյալ կազմաձևման կարգավորումները և գործարկվող կոդի հատվածը: Այն ցույց է տալիս, թե ինչպես օգտագործել C# PDF դեպի տեքստ փոխարկիչը կարող է ստեղծվել API-ի մի քանի զանգերի միջոցով: Ձեզ անհրաժեշտ է միայն բեռնել սկզբնաղբյուր PDF փաստաթուղթը և պահպանել ելքային Text ֆայլը:

PDF-ը տեքստային ֆայլի փոխարկելու քայլեր՝ օգտագործելով C#

  1. Ավելացրեք հղում Aspose.PDF for .NET-ին ձեր հավելվածում՝ PDF-ը տեքստային ֆայլի փոխարկելու համար
  2. Բեռնել սկզբնաղբյուր PDF ֆայլը՝ օգտագործելով Document դասի օրինակը՝ տեքստային ֆայլ ստեղծելու համար
  3. Ստեղծեք TextAbsorber դասի օրինակ և հանեք տեքստ բոլոր էջերից
  4. Պահպանեք ելքային տեքստային ֆայլը

NET Framework-ում PDF-ից տեքստ փոխարկիչ C#-ի վրա հիմնված հավելվածի կոնֆիգուրացիան գրելու համար և քայլ առ քայլ ընթացակարգը ներկայացված է այստեղ: Որպես առաջին քայլ, արագ կարգավորեք API-ն և բեռնեք մուտքագրված PDF ֆայլը: Հաջորդը, մենք անցնում ենք տեքստը հանել իր բոլոր էջերից և արդյունահանված տեքստը գրում ենք ֆայլում կամ հոսքում՝ ըստ պահանջների:

Կոդի հատված՝ PDF-ը տեքստի փոխարկելու համար՝ օգտագործելով C#

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
namespace ConvertPdfToTextUsingCSharp
{
class Program
{
static void Main(string[] args)
{
// Instantiate the license to avoid evaluation limitations while converting a PDF to Text
License PdfToTextLicense = new License();
PdfToTextLicense.SetLicense("Aspose.pdf.lic");
// Open document
Document pdfDocument = new Document("PDFtoText.pdf");
// Instantiate a TextAbsorber class object for extracting the text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure),new TextSearchOptions(new Rectangle(5,5,50,50)));
// Call the Accept() function to parse all the pages for reading text
pdfDocument.Pages.Accept(textAbsorber);
// Get extracted text as string
string ExtractedText = textAbsorber.Text;
// Save the text file
File.WriteAllText("PDFtoText.txt" , ExtractedText);
System.Console.WriteLine("Done");
}
}
}

Օգտագործելով C#-ը փոխարկել PDF-ը տեքստի ֆունկցիան կարող է ինտեգրվել ձեր հավելվածներին, ինչպես նաև վերահսկել տեքստը սկզբնաղբյուր PDF-ից, ինչպես կարող եք կարդալ տեքստ բոլոր էջերից կամ նշված էջից: Նմանապես, եթե ցանկանում եք PDF էջի որոշակի ուղղանկյուն տարածքից տեքստ կարդալ, դուք իրավունք ունեք սահմանել նաև այդ ուղղանկյուն տարածքը: Կարող են սահմանվել նաև տարբեր ռեժիմներ՝ PDF-ը տեքստի վերածելու համար, ինչպիսիք են Pure, Raw և MemorySaving:

Այս հոդվածում մենք իմացանք, թե ինչպես PDF դեպի Text C# կոդը կարող է օգտագործվել ձեր .NET հավելվածներում: Այնուամենայնիվ, եթե ցանկանում եք ուսումնասիրել PDF-ի HTML փաստաթղթերի փոխակերպումը, տես ինչպես փոխարկել PDF-ը HTML-ի՝ օգտագործելով C#-ի հոդվածը:

 Հայերեն