Cara Membaca File PDF di Java

Tutorial singkat ini memandu Anda tentang cara membaca file PDF di Java. Ini berisi kode Java untuk membaca file PDF sehingga pertama, Anda membaca teks dari PDF di Java menjadi string dan kemudian mengambil semua gambar dari file PDF untuk menyimpannya di disk sebagai JPG. Tidak perlu menginstal alat pihak ketiga untuk membaca PDF di Java.

Langkah-langkah Membaca File PDF di Java

  1. Konfigurasikan Aspose.PDF ke dalam proyek Anda menggunakan repositori Maven untuk membaca file PDF
  2. Muat file PDF sampel ke dalam objek kelas Document
  3. Buat instance objek kelas TextAbsorber yang dapat membaca seluruh teks dari file PDF
  4. Baca teks PDF dari file yang dimuat menggunakan objek kelas TextAbsorber
  5. Tampilkan seluruh teks yang dibaca dari file PDF di konsol
  6. Ulangi semua halaman dalam file PDF untuk mengakses gambar
  7. Parsing semua gambar di setiap koleksi gambar halaman dan simpan di disk

Dalam tutorial langkah-demi-langkah cepat ini, pertama-tama kita memuat file PDF target dan kemudian memulai objek kelas TextAbsorber yang mampu mencari teks melalui semua halaman dalam PDF. Seluruh teks ini dikembalikan menjadi string yang dapat ditampilkan atau diproses sesuai kebutuhan. Demikian pula, kita dapat mengurai semua gambar dalam koleksi gambar dan menyimpannya di disk dalam format apa pun seperti yang kita simpan sebagai JPG dalam tutorial ini.

Kode untuk Membaca PDF menggunakan Java

import com.aspose.pdf.License;
import com.aspose.pdf.Document;
import com.aspose.pdf.Page;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.XImage;
public class HowToReadPDFFileInJava {
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava
// Instantiate the license to remove trial version restrictions while reading the PDF file
License license = new License();
license.setLicense("Aspose.PDF.lic");
// Load the PDF file from which text and images are to be read
Document pdf = new Document("Input.pdf");
// 1. Read entire text from the PDF file
// Instantiate a TextAbsorber Class object to read Text from PDF file
TextAbsorber textAbsorberObject = new TextAbsorber();
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages
pdf.getPages().accept(textAbsorberObject);
// Write the extracted text from the sample PDF to console
System.out.println(textAbsorberObject.getText());
// 2. Extract images from PDF file
int imageCount = 1;
// Iterate through all the PDF pages to access images collection and save them on the disc
for (Page pdfPage : pdf.getPages())
{
// Iterate through images collection in the PDF file
for (XImage image : pdfPage.getResources().getImages())
{
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg");
// Save each image in the PDF file images collection to a JPG file
image.save(outputImageFromPdfFile);
outputImageFromPdfFile.close();
imageCount++;
}
// Reset image index
imageCount = 1;
}
}
}

Dalam kode contoh ini, kami menggunakan kelas TextAbsorber dan fungsi getImages() dari Page.getResources() untuk membaca PDF menggunakan Java. Objek TextAbsorber digunakan untuk membaca teks dengan fungsi accept di PDF PageCollection. Sedangkan fungsi getImages() dari koleksi getResources() mengembalikan semua gambar pada halaman.

Perhatikan bahwa langkah-langkah untuk membaca PDF di Java ini dapat dilakukan di salah satu sistem operasi seperti Windows, Linux, atau macOS. Jika Anda ingin mempelajari lebih lanjut tentang bekerja dengan file PDF, lihat artikel di cara membaca bookmark di PDF menggunakan Java.

 Indonesian