Kako čitati PDF datoteku u Javi

Ovaj kratki vodič vas vodi o tome kako čitati PDF datoteku u Javi. Sadrži Java kod za čitanje PDF datoteke tako da prvo pročitate tekst iz PDF u Javi u niz i zatim dohvatite sve slike iz PDF datoteke da ih spremite na disk kao JPG. Nema potrebe za instaliranjem alata treće strane za čitanje PDF-a u Javi.

Koraci za čitanje PDF datoteke u Javi

  1. Konfigurirajte Aspose.PDF u svoj projekt koristeći Maven repozitorij za čitanje PDF datoteke
  2. Učitajte primjer PDF datoteke u objekt klase Document
  3. Instancirajte objekt klase TextAbsorber koji može čitati cijeli tekst iz PDF datoteke
  4. Pročitajte PDF tekst iz učitane datoteke pomoću objekta klase TextAbsorber
  5. Prikaži cijeli tekst pročitan iz PDF datoteke na konzoli
  6. Iterirajte kroz sve stranice u PDF datoteci za pristup slikama
  7. Raščlanite sve slike na svakoj zbirci slika stranica i spremite ih na disk

U ovom kratkom vodiču korak po korak prvo učitavamo ciljnu PDF datoteku, a zatim pokrećemo objekt klase TextAbsorber koji je sposoban pretraživati tekst kroz sve stranice u PDF-u. Cijeli ovaj tekst se vraća u niz koji se može prikazati ili obraditi prema zahtjevu. Slično tome, možemo raščlaniti sve slike u zbirci slika i spremiti ih na disk u bilo kojem formatu kao što smo ga spremili kao JPG u ovom vodiču.

Kod za čitanje PDF-a pomoću Jave

import com.aspose.pdf.License;
import com.aspose.pdf.Document;
import com.aspose.pdf.Page;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.XImage;
public class HowToReadPDFFileInJava {
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava
// Instantiate the license to remove trial version restrictions while reading the PDF file
License license = new License();
license.setLicense("Aspose.PDF.lic");
// Load the PDF file from which text and images are to be read
Document pdf = new Document("Input.pdf");
// 1. Read entire text from the PDF file
// Instantiate a TextAbsorber Class object to read Text from PDF file
TextAbsorber textAbsorberObject = new TextAbsorber();
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages
pdf.getPages().accept(textAbsorberObject);
// Write the extracted text from the sample PDF to console
System.out.println(textAbsorberObject.getText());
// 2. Extract images from PDF file
int imageCount = 1;
// Iterate through all the PDF pages to access images collection and save them on the disc
for (Page pdfPage : pdf.getPages())
{
// Iterate through images collection in the PDF file
for (XImage image : pdfPage.getResources().getImages())
{
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg");
// Save each image in the PDF file images collection to a JPG file
image.save(outputImageFromPdfFile);
outputImageFromPdfFile.close();
imageCount++;
}
// Reset image index
imageCount = 1;
}
}
}

U ovom uzorku koda upotrijebili smo klasu TextAbsorber i getImages() funkciju Page.getResources() za čitanje PDF-a pomoću Jave. Objekt TextAbsorber koristi se za čitanje teksta pomoću funkcije prihvaćanja u PDF PageCollection. Dok funkcija getImages() kolekcije getResources() vraća sve slike na stranici.

Imajte na umu da se ovi koraci za čitanje PDF-a u Javi mogu izvesti u bilo kojem operativnom sustavu kao što su Windows, Linux ili macOS. Ako želite saznati više o radu s PDF datotekama, pogledajte članak na kako čitati knjižne oznake u PDF-u pomoću Jave.

 Hrvatski