نحوه تبدیل PDF به متن در جاوا

این آموزش کوتاه جزئیاتی در مورد نحوه تبدیل PDF به متن در جاوا با بارگیری سند ورودی PDF و ذخیره آن در قالب Text ارائه می دهد. علاوه بر این، با استفاده از ** تبدیل پی دی اف به متن جاوا ** می توان برای کنترل اینکه آیا می خواهید متن خروجی را با یا بدون قالب بندی در مقایسه با فایل PDF منبع، کنترل کنید.

مراحل تبدیل PDF به متن در جاوا

  1. برنامه خود را با افزودن مرجع به Aspose.PDF از مخزن Maven برای تبدیل PDF به یک فایل متنی پیکربندی کنید.
  2. فایل PDF ورودی را با شی کلاس Document برای تبدیل PDF به فایل متنی بارگیری کنید.
  3. برای تنظیم گزینه های استخراج متن، یک شی از کلاس TextAbsorber ایجاد کنید
  4. متن استخراج شده را در یک فایل متنی بنویسید

مراحل بالا روند توسعه یک برنامه تبدیل PDF به متن جاوا را شرح می دهد. در مرحله اول، سند PDF ورودی با استفاده از نمونه کلاس Document بارگذاری می شود و سپس انتخاب می کنید که آیا متن را با قالب بندی می خواهید یا خیر. در نهایت، می‌توانید از رشته متن برای نوشتن در یک فایل یا پردازش آن بر اساس نیاز خود استفاده کنید.

کد برای تبدیل PDF به متن در جاوا

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

این کد نمونه نشان می دهد که با استفاده از * تبدیل PDF به متن * جاوا با کنترل کامل با استفاده از گزینه های مختلف مانند کلاس TextAbsorber دارای سازنده های متعددی است که می توانید از TextSearchOptions استفاده کنید که گزینه ای را برای تبدیل متن سایه دار در PDF منبع به عنوان یک متن جداگانه فراهم می کند. به طور مشابه، می‌توانید پرچم‌ها را برای جستجوی متن فقط در داخل صفحه محدود کنید یا یک مستطیل برای جستجوی متن از یک منطقه مشخص فقط در همه صفحات تنظیم کنید.

در اینجا یاد گرفتیم که چگونه PDF را به متن در جاوا به همراه قطعه کد تبدیل کنیم. اگر می خواهید فرآیند تبدیل PDF به Word را یاد بگیرید، به مقاله نحوه تبدیل PDF به Word در جاوا مراجعه کنید.

 فارسی