يقدم هذا البرنامج التعليمي السريع تفاصيل حول كيفية ** استخراج نص من ملف PDF الممسوح ضوئيًا في Java **. يمكنك تكوين عملية ** استخراج النص من ملف PDF الممسوح ضوئيًا في Java ** عن طريق تعيين معلمات الكشف. يتوفر الخيار أيضًا للاختيار بين السرعة أو الدقة وفقًا لجودة PDF ومتطلبات التطبيق الأخرى.
خطوات استخراج النص من ملف PDF الممسوح ضوئيًا في Java
- من مستودع Maven ، قم بتهيئة Aspose.OCR في مشروعك لقراءة نص PDF الممسوح ضوئيًا
- قم بتهيئة كائن AsposeOcrPdf لقراءة النص من ملف PDF
- إنشاء كائن فئة DocumentRecognitionSettings لتعيين معلمات التعرف
- قم بتعيين صفحة البداية وعدد الصفحات في ملف PDF لقراءة النص
- لزيادة سرعة الكشف ، اضبط علم مناطق الكشف على خطأ
- استدعاء وظيفة RecognizePdf لقراءة كل النص وفقًا للتكوين أعلاه
- كرر خلال جميع النتائج المستخرجة من صفحات PDF واعرضها على وحدة التحكم
أثناء عملية * مسح النص من PDF في Java * ، يتم بدء كائن AsposeOCRPdf الذي يحتوي بالفعل على ميزات للتعرف على النص من ملف PDF. وهو يدعم تكوين عملية الكشف مثل رقم صفحة البداية ، وعدد صفحات PDF المراد قراءتها ، وخيار ضبط مناطق الكشف للتحكم في السرعة والدقة. أخيرًا ، نقوم بتحليل مجموعة النتائج الممسوحة ضوئيًا من كل صفحة ونعرضها على وحدة التحكم.
كود لتحويل ملف PDF الممسوح ضوئيًا إلى نص بجافا
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
يستخدم هذا الرمز AsposeOCRPdf * للحصول على نص من ملف PDF الممسوح ضوئيًا في Java *. يحتوي كائن فئة DocumentRecognitionSettings على خيارات لتعيين تكوين الصفحات إما باستخدام المُنشئ كما هو موضح في نموذج التعليمات البرمجية هذا أو عن طريق تعيين StartPage و PagesNumber بشكل منفصل. يمكنك أيضًا تعيين اللغة وتصحيحات انحراف الصورة وعدد سلاسل الرسائل للكشف المتوازي عن النص من ملف PDF الممسوح ضوئيًا.
في هذه المقالة ، تعلمنا كيفية استخراج نص من ملف PDF الممسوح ضوئيًا في Java جنبًا إلى جنب مع تكوين عملية الكشف. ومع ذلك ، إذا كنت تريد استخراج نص من صورة ، فراجع المقالة على كيفية استخراج النص من الصورة باستخدام Java.