كيفية استخراج نص من ملف PDF الممسوح ضوئيًا في جافا

يقدم هذا البرنامج التعليمي السريع تفاصيل حول كيفية ** استخراج نص من ملف PDF الممسوح ضوئيًا في Java **. يمكنك تكوين عملية ** استخراج النص من ملف PDF الممسوح ضوئيًا في Java ** عن طريق تعيين معلمات الكشف. يتوفر الخيار أيضًا للاختيار بين السرعة أو الدقة وفقًا لجودة PDF ومتطلبات التطبيق الأخرى.

خطوات استخراج النص من ملف PDF الممسوح ضوئيًا في Java

  1. من مستودع Maven ، قم بتهيئة Aspose.OCR في مشروعك لقراءة نص PDF الممسوح ضوئيًا
  2. قم بتهيئة كائن AsposeOcrPdf لقراءة النص من ملف PDF
  3. إنشاء كائن فئة DocumentRecognitionSettings لتعيين معلمات التعرف
  4. قم بتعيين صفحة البداية وعدد الصفحات في ملف PDF لقراءة النص
  5. لزيادة سرعة الكشف ، اضبط علم مناطق الكشف على خطأ
  6. استدعاء وظيفة RecognizePdf لقراءة كل النص وفقًا للتكوين أعلاه
  7. كرر خلال جميع النتائج المستخرجة من صفحات PDF واعرضها على وحدة التحكم

أثناء عملية * مسح النص من PDF في Java * ، يتم بدء كائن AsposeOCRPdf الذي يحتوي بالفعل على ميزات للتعرف على النص من ملف PDF. وهو يدعم تكوين عملية الكشف مثل رقم صفحة البداية ، وعدد صفحات PDF المراد قراءتها ، وخيار ضبط مناطق الكشف للتحكم في السرعة والدقة. أخيرًا ، نقوم بتحليل مجموعة النتائج الممسوحة ضوئيًا من كل صفحة ونعرضها على وحدة التحكم.

كود لتحويل ملف PDF الممسوح ضوئيًا إلى نص بجافا

import java.util.ArrayList;
import com.aspose.ocr.DocumentRecognitionSettings;
import com.aspose.ocr.RecognitionResult;
import com.aspose.ocr.pdf.AsposeOCRPdf;
public class ExtractTextFromScannedPdfInJava {
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class
// Instantiate an AsposeOcrPdf object
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf();
// Initialize DocumentRecognitionSettings class object for configuring recognition settings
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3);
// Set detect areas to false to improve speed
docRecognitionConfig.setDetectAreas(false);
// Using the recognition settings, fetch text from the range of pages set in the constructor above
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig);
// Iterate through all the text fetched from each page
int PageCounter = 1;
for(RecognitionResult page : fetchedTextResults)
{
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText);
PageCounter++;
}
}
}

يستخدم هذا الرمز AsposeOCRPdf * للحصول على نص من ملف PDF الممسوح ضوئيًا في Java *. يحتوي كائن فئة DocumentRecognitionSettings على خيارات لتعيين تكوين الصفحات إما باستخدام المُنشئ كما هو موضح في نموذج التعليمات البرمجية هذا أو عن طريق تعيين StartPage و PagesNumber بشكل منفصل. يمكنك أيضًا تعيين اللغة وتصحيحات انحراف الصورة وعدد سلاسل الرسائل للكشف المتوازي عن النص من ملف PDF الممسوح ضوئيًا.

في هذه المقالة ، تعلمنا كيفية استخراج نص من ملف PDF الممسوح ضوئيًا في Java جنبًا إلى جنب مع تكوين عملية الكشف. ومع ذلك ، إذا كنت تريد استخراج نص من صورة ، فراجع المقالة على كيفية استخراج النص من الصورة باستخدام Java.

 عربي