Šioje trumpoje pamokoje pateikiama išsami informacija apie tai, kaip konvertuoti PDF į tekstą Java įkeliant įvesties PDF dokumentą ir išsaugant jį Text formatu. Be to, naudojant Java PDF į tekstą konverterį galima tinkinti, kad būtų galima valdyti, ar norite išvesties tekstą su formatavimu ar be jo, palyginti su šaltinio PDF failu.
Veiksmai, kaip konvertuoti PDF į tekstą Java
- Sukonfigūruokite programą pridėdami nuorodą į Aspose.PDF iš Maven saugyklos, kad konvertuotumėte PDF į tekstinį failą
- Įkelkite įvesties PDF failą su Document klasės objektu, kad PDF konvertuotumėte į tekstinį failą
- Norėdami nustatyti teksto ištraukimo parinktis, sukurkite TextAbsorber klasės objektą
- Įrašykite ištrauktą tekstą į tekstinį failą
Aukščiau pateikti veiksmai paaiškina PDF į tekstą Java pagrįstos keitiklio programos kūrimo procesą. Pirmajame etape įvesties PDF dokumentas įkeliamas naudojant dokumentų klasės egzempliorių, tada pasirinkite, ar norite teksto su formatavimu, ar ne. Galiausiai galite naudoti teksto eilutę norėdami įrašyti į failą arba apdoroti jį toliau pagal savo poreikius.
Kodas konvertuoti PDF į tekstą Java
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Šis pavyzdinis kodas parodo, kad naudojant Java konvertuoti PDF į tekstą su visišku valdymu, naudojant įvairias parinktis, pvz., TextAbsorber klasėje, yra keli konstruktoriai, kuriuose galite naudoti “TextSearchOptions”, kurios suteikia galimybę konvertuoti užtemdytą tekstą šaltinio PDF formatu kaip atskirą tekstą. Panašiai galite nustatyti vėliavėles, kad ieškotumėte teksto tik surištame puslapyje, arba nustatyti stačiakampį, kad teksto būtų ieškoma tik tam tikroje srityje visuose puslapiuose.
Čia mes sužinojome, kaip konvertuoti PDF į tekstą Java kartu su kodo fragmentu. Jei norite sužinoti, kaip konvertuoti PDF į Word formatą, žr. straipsnį Kaip konvertuoti PDF į Word Java.