Այս հակիրճ ձեռնարկը ձեզ ուղղորդում է ինչպես կարդալ PDF ֆայլը Java-ում: Այն պարունակում է Java կոդ PDF ֆայլը կարդալու համար այնպես, որ սկզբում դուք կարդում եք տեքստը PDF-ից Java-ից տողի մեջ, այնուհետև վերցնում եք բոլոր պատկերները PDF ֆայլից` դրանք սկավառակի վրա պահելու համար որպես JPG. Կարիք չկա տեղադրել որևէ երրորդ կողմի գործիք՝ Java-ում PDF կարդալու համար*:
Java-ում PDF ֆայլը կարդալու քայլեր
- Կազմաձևեք Aspose.PDF-ը ձեր նախագծում՝ օգտագործելով Maven պահոցը՝ PDF ֆայլը կարդալու համար
- Ներբեռնեք PDF ֆայլի նմուշը Document դասի օբյեկտում
- Ստեղծեք TextAbsorber դասի օբյեկտ, որը կարող է կարդալ ամբողջ տեքստը PDF ֆայլից
- Կարդացեք PDF տեքստը բեռնված ֆայլից՝ օգտագործելով TextAbsorber դասի օբյեկտը
- Ցուցադրել ամբողջ տեքստը, որը կարդացվել է PDF ֆայլից վահանակի վրա
- Կրկնեք PDF ֆայլի բոլոր էջերը՝ պատկերները մուտք գործելու համար
- Վերլուծեք յուրաքանչյուր էջի պատկերների հավաքածուի բոլոր պատկերները և պահեք դրանք սկավառակի վրա
Այս արագ քայլ առ քայլ ձեռնարկում մենք նախ բեռնում ենք թիրախային PDF ֆայլը, այնուհետև սկսում ենք TextAbsorber դասի օբյեկտը, որն ի վիճակի է փնտրել տեքստ PDF-ի բոլոր էջերում: Այս ամբողջ տեքստը վերադարձվում է տողի մեջ, որը կարող է ցուցադրվել կամ մշակվել ըստ պահանջի: Նմանապես, մենք կարող ենք վերլուծել պատկերների հավաքածուի բոլոր պատկերները և պահել դրանք սկավառակի վրա ցանկացած ձևաչափով, ինչպես որ մենք այն պահել ենք որպես JPG այս ձեռնարկում:
Կոդ՝ Java-ի միջոցով PDF կարդալու համար
import com.aspose.pdf.License; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.Page; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.XImage; | |
public class HowToReadPDFFileInJava { | |
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava | |
// Instantiate the license to remove trial version restrictions while reading the PDF file | |
License license = new License(); | |
license.setLicense("Aspose.PDF.lic"); | |
// Load the PDF file from which text and images are to be read | |
Document pdf = new Document("Input.pdf"); | |
// 1. Read entire text from the PDF file | |
// Instantiate a TextAbsorber Class object to read Text from PDF file | |
TextAbsorber textAbsorberObject = new TextAbsorber(); | |
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages | |
pdf.getPages().accept(textAbsorberObject); | |
// Write the extracted text from the sample PDF to console | |
System.out.println(textAbsorberObject.getText()); | |
// 2. Extract images from PDF file | |
int imageCount = 1; | |
// Iterate through all the PDF pages to access images collection and save them on the disc | |
for (Page pdfPage : pdf.getPages()) | |
{ | |
// Iterate through images collection in the PDF file | |
for (XImage image : pdfPage.getResources().getImages()) | |
{ | |
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg"); | |
// Save each image in the PDF file images collection to a JPG file | |
image.save(outputImageFromPdfFile); | |
outputImageFromPdfFile.close(); | |
imageCount++; | |
} | |
// Reset image index | |
imageCount = 1; | |
} | |
} | |
} |
Այս օրինակելի կոդում մենք օգտագործեցինք Page.getResources()-ի TextAbsorber դասը և getImages() ֆունկցիան՝ Java-ի միջոցով * PDF կարդալու համար: TextAbsorber օբյեկտը օգտագործվում է PDF PageCollection-ում ընդունող ֆունկցիայի տեքստը կարդալու համար: Մինչդեռ getImages() ֆունկցիան getResources() հավաքածուի վերադարձնում է էջի բոլոր պատկերները։
Նկատի ունեցեք, որ Java-ում PDF-ը կարդալու այս քայլերը կարող են իրականացվել ցանկացած օպերացիոն համակարգում, ինչպիսիք են Windows-ը, Linux-ը կամ macOS-ը: Եթե ցանկանում եք ավելին իմանալ PDF ֆայլերի հետ աշխատելու մասին, տես ինչպես կարդալ էջանիշերը PDF-ում Java-ի միջոցով-ի հոդվածը: