Ovaj kratki vodič vas vodi o tome kako čitati PDF datoteku u Javi. Sadrži Java kod za čitanje PDF datoteke tako da prvo pročitate tekst iz PDF u Javi u niz i zatim dohvatite sve slike iz PDF datoteke da ih spremite na disk kao JPG. Nema potrebe za instaliranjem alata treće strane za čitanje PDF-a u Javi.
Koraci za čitanje PDF datoteke u Javi
- Konfigurirajte Aspose.PDF u svoj projekt koristeći Maven repozitorij za čitanje PDF datoteke
- Učitajte primjer PDF datoteke u objekt klase Document
- Instancirajte objekt klase TextAbsorber koji može čitati cijeli tekst iz PDF datoteke
- Pročitajte PDF tekst iz učitane datoteke pomoću objekta klase TextAbsorber
- Prikaži cijeli tekst pročitan iz PDF datoteke na konzoli
- Iterirajte kroz sve stranice u PDF datoteci za pristup slikama
- Raščlanite sve slike na svakoj zbirci slika stranica i spremite ih na disk
U ovom kratkom vodiču korak po korak prvo učitavamo ciljnu PDF datoteku, a zatim pokrećemo objekt klase TextAbsorber koji je sposoban pretraživati tekst kroz sve stranice u PDF-u. Cijeli ovaj tekst se vraća u niz koji se može prikazati ili obraditi prema zahtjevu. Slično tome, možemo raščlaniti sve slike u zbirci slika i spremiti ih na disk u bilo kojem formatu kao što smo ga spremili kao JPG u ovom vodiču.
Kod za čitanje PDF-a pomoću Jave
import com.aspose.pdf.License; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.Page; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.XImage; | |
public class HowToReadPDFFileInJava { | |
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava | |
// Instantiate the license to remove trial version restrictions while reading the PDF file | |
License license = new License(); | |
license.setLicense("Aspose.PDF.lic"); | |
// Load the PDF file from which text and images are to be read | |
Document pdf = new Document("Input.pdf"); | |
// 1. Read entire text from the PDF file | |
// Instantiate a TextAbsorber Class object to read Text from PDF file | |
TextAbsorber textAbsorberObject = new TextAbsorber(); | |
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages | |
pdf.getPages().accept(textAbsorberObject); | |
// Write the extracted text from the sample PDF to console | |
System.out.println(textAbsorberObject.getText()); | |
// 2. Extract images from PDF file | |
int imageCount = 1; | |
// Iterate through all the PDF pages to access images collection and save them on the disc | |
for (Page pdfPage : pdf.getPages()) | |
{ | |
// Iterate through images collection in the PDF file | |
for (XImage image : pdfPage.getResources().getImages()) | |
{ | |
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg"); | |
// Save each image in the PDF file images collection to a JPG file | |
image.save(outputImageFromPdfFile); | |
outputImageFromPdfFile.close(); | |
imageCount++; | |
} | |
// Reset image index | |
imageCount = 1; | |
} | |
} | |
} |
U ovom uzorku koda upotrijebili smo klasu TextAbsorber i getImages() funkciju Page.getResources() za čitanje PDF-a pomoću Jave. Objekt TextAbsorber koristi se za čitanje teksta pomoću funkcije prihvaćanja u PDF PageCollection. Dok funkcija getImages() kolekcije getResources() vraća sve slike na stranici.
Imajte na umu da se ovi koraci za čitanje PDF-a u Javi mogu izvesti u bilo kojem operativnom sustavu kao što su Windows, Linux ili macOS. Ako želite saznati više o radu s PDF datotekama, pogledajte članak na kako čitati knjižne oznake u PDF-u pomoću Jave.