يرشدك هذا البرنامج التعليمي الموجز إلى ** كيفية قراءة ملف PDF في Java **. يحتوي على ** كود Java لقراءة ملف PDF ** بحيث تقرأ أولاً نصًا من PDF في Java في سلسلة ثم تجلب جميع الصور من ملف PDF لحفظها على القرص كـ JPG. ليست هناك حاجة لتثبيت أي أداة خارجية * لقراءة PDF في Java *.
خطوات قراءة ملف PDF بجافا
- قم بتكوين Aspose.PDF في مشروعك باستخدام مستودع Maven لقراءة ملف PDF
- قم بتحميل نموذج ملف PDF في كائن فئة Document
- إنشاء كائن فئة TextAbsorber يمكنه قراءة النص بأكمله من ملف PDF
- قراءة نص PDF من الملف المحمل باستخدام كائن فئة TextAbsorber
- اعرض النص الكامل المقروء من ملف PDF على وحدة التحكم
- كرر خلال جميع الصفحات في ملف PDF للوصول إلى الصور
- تحليل جميع الصور في كل مجموعة صور صفحة وحفظها على القرص
في هذا البرنامج التعليمي السريع خطوة بخطوة ، نقوم أولاً بتحميل ملف PDF الهدف ثم نبدأ كائن فئة TextAbsorber القادر على البحث عن النص من خلال جميع الصفحات في ملف PDF. يتم إرجاع هذا النص بالكامل إلى سلسلة يمكن عرضها أو معالجتها وفقًا للمتطلبات. وبالمثل ، يمكننا تحليل جميع الصور الموجودة في مجموعة الصور وحفظها على القرص بأي تنسيق حيث قمنا بحفظها بتنسيق JPG في هذا البرنامج التعليمي.
كود لقراءة PDF باستخدام Java
import com.aspose.pdf.License; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.Page; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.XImage; | |
public class HowToReadPDFFileInJava { | |
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava | |
// Instantiate the license to remove trial version restrictions while reading the PDF file | |
License license = new License(); | |
license.setLicense("Aspose.PDF.lic"); | |
// Load the PDF file from which text and images are to be read | |
Document pdf = new Document("Input.pdf"); | |
// 1. Read entire text from the PDF file | |
// Instantiate a TextAbsorber Class object to read Text from PDF file | |
TextAbsorber textAbsorberObject = new TextAbsorber(); | |
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages | |
pdf.getPages().accept(textAbsorberObject); | |
// Write the extracted text from the sample PDF to console | |
System.out.println(textAbsorberObject.getText()); | |
// 2. Extract images from PDF file | |
int imageCount = 1; | |
// Iterate through all the PDF pages to access images collection and save them on the disc | |
for (Page pdfPage : pdf.getPages()) | |
{ | |
// Iterate through images collection in the PDF file | |
for (XImage image : pdfPage.getResources().getImages()) | |
{ | |
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg"); | |
// Save each image in the PDF file images collection to a JPG file | |
image.save(outputImageFromPdfFile); | |
outputImageFromPdfFile.close(); | |
imageCount++; | |
} | |
// Reset image index | |
imageCount = 1; | |
} | |
} | |
} |
في نموذج التعليمات البرمجية هذا ، استخدمنا فئة TextAbsorber ووظيفة getImages () الخاصة بـ Page.getResources () * لقراءة ملف PDF باستخدام Java *. يتم استخدام كائن TextAbsorber لقراءة النص عن طريق وظيفة القبول في مجموعة صفحات PDF. بينما تقوم وظيفة getImages () لمجموعة getResources () بإرجاع جميع الصور الموجودة على الصفحة.
لاحظ أنه يمكن تنفيذ هذه الخطوات لقراءة PDF في Java في أي من أنظمة التشغيل مثل Windows أو Linux أو macOS. إذا كنت تريد معرفة المزيد حول العمل مع ملفات PDF ، فراجع المقالة على كيفية قراءة الإشارات المرجعية في PDF باستخدام Java.