Cara Mengonversi PDF ke Teks di Java

Tutorial singkat ini memberikan detail tentang cara mengonversi PDF ke Teks di Java dengan memuat dokumen input PDF dan menyimpannya ke format Text. Selain itu, menggunakan Java PDF to Text converter dapat disesuaikan untuk mengontrol apakah Anda menginginkan teks keluaran dengan atau tanpa pemformatan dibandingkan dengan file PDF sumber.

Langkah-langkah untuk Mengonversi PDF ke Teks di Java

  1. Konfigurasikan aplikasi Anda dengan menambahkan referensi ke Aspose.PDF dari repositori Maven untuk mengonversi PDF ke file Teks
  2. Muat file PDF masukan dengan objek kelas Document untuk konversi PDF ke file Teks
  3. Buat objek kelas TextAbsorber untuk mengatur opsi ekstraksi teks
  4. Tulis teks yang diekstraksi ke file Teks

Langkah-langkah di atas menguraikan proses pengembangan aplikasi konverter berbasis PDF ke Teks Java. Pada langkah pertama, dokumen PDF input dimuat menggunakan instance kelas Dokumen dan kemudian pilih apakah Anda ingin teks dengan pemformatan atau tidak. Terakhir, Anda dapat menggunakan string teks untuk menulis ke dalam file atau memprosesnya lebih lanjut sesuai kebutuhan Anda.

Kode untuk Mengonversi PDF ke Teks di Java

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

Kode contoh ini menunjukkan bahwa dengan menggunakan Java mengonversi PDF ke teks dengan kontrol penuh dengan menggunakan opsi berbeda seperti kelas TextAbsorber memiliki beberapa konstruktor di mana Anda dapat menggunakan TextSearchOptions yang menyediakan opsi untuk mengonversi teks berbayang dalam PDF sumber sebagai teks terpisah. Demikian pula, Anda dapat mengatur bendera untuk mencari teks hanya di dalam halaman terikat atau mengatur persegi panjang untuk mencari teks dari area tertentu hanya di semua halaman.

Di sini kita telah mempelajari cara mengonversi PDF ke Teks di Java bersama dengan cuplikan kodenya. Jika Anda ingin mempelajari proses mengonversi PDF ke Word, lihat artikel di cara mengonversi PDF ke Word di Java.

 Indonesian