نحوه استخراج متن از PDF اسکن شده در جاوا

این آموزش سریع جزئیاتی را در مورد نحوه استخراج متن از PDF اسکن شده در جاوا ارائه می دهد. شما می توانید این فرآیند ** استخراج متن از PDF اسکن شده در جاوا ** را با تنظیم پارامترهای تشخیص پیکربندی کنید. این گزینه همچنین برای انتخاب بین سرعت یا دقت بسته به کیفیت PDF و سایر الزامات برنامه موجود است.

مراحل استخراج متن از PDF اسکن شده در جاوا

  1. از مخزن Maven، Aspose.OCR را در پروژه خود برای خواندن متن PDF اسکن شده پیکربندی کنید.
  2. برای خواندن متن از PDF، شیء AsposeOcrPdf را مقداردهی کنید
  3. نمونه سازی شی کلاس DocumentRecognitionSettings برای تنظیم پارامترهای تشخیص
  4. صفحه شروع و تعداد صفحات PDF را برای خواندن متن تنظیم کنید
  5. برای افزایش سرعت تشخیص، پرچم مناطق شناسایی را روی false تنظیم کنید
  6. تابع RecognizePdf را فراخوانی کنید تا تمام متن طبق پیکربندی بالا خوانده شود
  7. تمام نتایج استخراج شده از صفحات PDF را تکرار کنید و آنها را در کنسول نمایش دهید

در طول فرآیند اسکن متن از PDF در جاوا، یک شی از AsposeOCRPdf آغاز می شود که در واقع دارای ویژگی هایی برای تشخیص متن از PDF است. از پیکربندی فرآیند تشخیص مانند شماره صفحه شروع، تعداد صفحات PDF برای خواندن و گزینه ای برای تنظیم مناطق تشخیص برای کنترل سرعت و دقت پشتیبانی می کند. در نهایت، مجموعه نتایج اسکن شده از هر صفحه را تجزیه می کنیم و آنها را روی کنسول نمایش می دهیم.

کد برای تبدیل PDF اسکن شده به متن در جاوا

این کد از AsposeOCRPdf برای دریافت متن از PDF اسکن شده در جاوا استفاده می کند. شی کلاس DocumentRecognitionSettings شامل گزینه هایی برای تنظیم پیکربندی صفحات با استفاده از سازنده همانطور که در این کد نمونه نشان داده شده است یا با تنظیم StartPage و PagesNumber به طور جداگانه است. همچنین می توانید زبان، اصلاحات انحراف تصویر و تعداد رشته ها را برای تشخیص موازی متن از PDF اسکن شده تنظیم کنید.

در این مقاله نحوه استخراج متن از پی دی اف اسکن شده در جاوا به همراه پیکربندی فرآیند تشخیص را یاد گرفتیم. با این حال، اگر می خواهید متنی را از یک تصویر استخراج کنید، به مقاله در نحوه استخراج متن از تصویر با استفاده از جاوا مراجعه کنید.

 فارسی