Այս հիմնական ձեռնարկը ձեզ ուղղորդում է, թե ինչպես փոխակերպել PDF-ը տեքստային ֆայլի՝ օգտագործելով C#՝ ներառյալ կազմաձևման կարգավորումները և գործարկվող կոդի հատվածը: Այն ցույց է տալիս, թե ինչպես օգտագործել C# PDF դեպի տեքստ փոխարկիչը կարող է ստեղծվել API-ի մի քանի զանգերի միջոցով: Ձեզ անհրաժեշտ է միայն բեռնել սկզբնաղբյուր PDF փաստաթուղթը և պահպանել ելքային Text ֆայլը:
PDF-ը տեքստային ֆայլի փոխարկելու քայլեր՝ օգտագործելով C#
- Ավելացրեք հղում Aspose.PDF for .NET-ին ձեր հավելվածում՝ PDF-ը տեքստային ֆայլի փոխարկելու համար
- Բեռնել սկզբնաղբյուր PDF ֆայլը՝ օգտագործելով Document դասի օրինակը՝ տեքստային ֆայլ ստեղծելու համար
- Ստեղծեք TextAbsorber դասի օրինակ և հանեք տեքստ բոլոր էջերից
- Պահպանեք ելքային տեքստային ֆայլը
NET Framework-ում PDF-ից տեքստ փոխարկիչ C#-ի վրա հիմնված հավելվածի կոնֆիգուրացիան գրելու համար և քայլ առ քայլ ընթացակարգը ներկայացված է այստեղ: Որպես առաջին քայլ, արագ կարգավորեք API-ն և բեռնեք մուտքագրված PDF ֆայլը: Հաջորդը, մենք անցնում ենք տեքստը հանել իր բոլոր էջերից և արդյունահանված տեքստը գրում ենք ֆայլում կամ հոսքում՝ ըստ պահանջների:
Կոդի հատված՝ PDF-ը տեքստի փոխարկելու համար՝ օգտագործելով C#
using System.IO; | |
using Aspose.Pdf; | |
using Aspose.Pdf.Text; | |
namespace ConvertPdfToTextUsingCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Instantiate the license to avoid evaluation limitations while converting a PDF to Text | |
License PdfToTextLicense = new License(); | |
PdfToTextLicense.SetLicense("Aspose.pdf.lic"); | |
// Open document | |
Document pdfDocument = new Document("PDFtoText.pdf"); | |
// Instantiate a TextAbsorber class object for extracting the text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure),new TextSearchOptions(new Rectangle(5,5,50,50))); | |
// Call the Accept() function to parse all the pages for reading text | |
pdfDocument.Pages.Accept(textAbsorber); | |
// Get extracted text as string | |
string ExtractedText = textAbsorber.Text; | |
// Save the text file | |
File.WriteAllText("PDFtoText.txt" , ExtractedText); | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
Օգտագործելով C#-ը փոխարկել PDF-ը տեքստի ֆունկցիան կարող է ինտեգրվել ձեր հավելվածներին, ինչպես նաև վերահսկել տեքստը սկզբնաղբյուր PDF-ից, ինչպես կարող եք կարդալ տեքստ բոլոր էջերից կամ նշված էջից: Նմանապես, եթե ցանկանում եք PDF էջի որոշակի ուղղանկյուն տարածքից տեքստ կարդալ, դուք իրավունք ունեք սահմանել նաև այդ ուղղանկյուն տարածքը: Կարող են սահմանվել նաև տարբեր ռեժիմներ՝ PDF-ը տեքստի վերածելու համար, ինչպիսիք են Pure, Raw և MemorySaving:
Այս հոդվածում մենք իմացանք, թե ինչպես PDF դեպի Text C# կոդը կարող է օգտագործվել ձեր .NET հավելվածներում: Այնուամենայնիվ, եթե ցանկանում եք ուսումնասիրել PDF-ի HTML փաստաթղթերի փոխակերպումը, տես ինչպես փոխարկել PDF-ը HTML-ի՝ օգտագործելով C#-ի հոդվածը: