يقدم هذا البرنامج التعليمي السريع تفاصيل حول كيفية ** استخراج نص من ملف PDF الممسوح ضوئيًا في Java **. يمكنك تكوين عملية ** استخراج النص من ملف PDF الممسوح ضوئيًا في Java ** عن طريق تعيين معلمات الكشف. يتوفر الخيار أيضًا للاختيار بين السرعة أو الدقة وفقًا لجودة PDF ومتطلبات التطبيق الأخرى.
خطوات استخراج النص من ملف PDF الممسوح ضوئيًا في Java
- من مستودع Maven ، قم بتهيئة Aspose.OCR في مشروعك لقراءة نص PDF الممسوح ضوئيًا
- قم بتهيئة كائن AsposeOcrPdf لقراءة النص من ملف PDF
- إنشاء كائن فئة DocumentRecognitionSettings لتعيين معلمات التعرف
- قم بتعيين صفحة البداية وعدد الصفحات في ملف PDF لقراءة النص
- لزيادة سرعة الكشف ، اضبط علم مناطق الكشف على خطأ
- استدعاء وظيفة RecognizePdf لقراءة كل النص وفقًا للتكوين أعلاه
- كرر خلال جميع النتائج المستخرجة من صفحات PDF واعرضها على وحدة التحكم
أثناء عملية * مسح النص من PDF في Java * ، يتم بدء كائن AsposeOCRPdf الذي يحتوي بالفعل على ميزات للتعرف على النص من ملف PDF. وهو يدعم تكوين عملية الكشف مثل رقم صفحة البداية ، وعدد صفحات PDF المراد قراءتها ، وخيار ضبط مناطق الكشف للتحكم في السرعة والدقة. أخيرًا ، نقوم بتحليل مجموعة النتائج الممسوحة ضوئيًا من كل صفحة ونعرضها على وحدة التحكم.
كود لتحويل ملف PDF الممسوح ضوئيًا إلى نص بجافا
يستخدم هذا الرمز AsposeOCRPdf * للحصول على نص من ملف PDF الممسوح ضوئيًا في Java *. يحتوي كائن فئة DocumentRecognitionSettings على خيارات لتعيين تكوين الصفحات إما باستخدام المُنشئ كما هو موضح في نموذج التعليمات البرمجية هذا أو عن طريق تعيين StartPage و PagesNumber بشكل منفصل. يمكنك أيضًا تعيين اللغة وتصحيحات انحراف الصورة وعدد سلاسل الرسائل للكشف المتوازي عن النص من ملف PDF الممسوح ضوئيًا.
في هذه المقالة ، تعلمنا كيفية استخراج نص من ملف PDF الممسوح ضوئيًا في Java جنبًا إلى جنب مع تكوين عملية الكشف. ومع ذلك ، إذا كنت تريد استخراج نص من صورة ، فراجع المقالة على كيفية استخراج النص من الصورة باستخدام Java.