Questo breve tutorial fornisce dettagli su come convertire PDF in testo in Java caricando il documento di input PDF e salvandolo nel formato Text. Inoltre, l’utilizzo del convertitore Java PDF to Text può essere personalizzato per controllare se si desidera il testo di output con o senza formattazione rispetto al file PDF di origine.
Passaggi per convertire PDF in testo in Java
- Configura la tua applicazione aggiungendo il riferimento a Aspose.PDF dal repository Maven per convertire il PDF in un file di testo
- Carica il file PDF di input con l’oggetto classe Document per la conversione del PDF in un file di testo
- Crea un oggetto di classe TextAbsorber per impostare le opzioni di estrazione del testo
- Scrivi il testo estratto in un file di testo
I passaggi precedenti elaborano il processo di sviluppo di un’applicazione di conversione basata su PDF in testo Java. Nel primo passaggio, il documento PDF di input viene caricato utilizzando l’istanza della classe Document e quindi seleziona se desideri che il testo sia formattato o meno. Infine, puoi utilizzare la stringa di testo per scrivere in un file o elaborarlo ulteriormente secondo le tue esigenze.
Codice per convertire PDF in testo in Java
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Questo codice di esempio dimostra che l’utilizzo di Java convert PDF in testo con il controllo completo utilizzando diverse opzioni come la classe TextAbsorber dispone di più costruttori in cui è possibile utilizzare TextSearchOptions che fornisce l’opzione per convertire il testo ombreggiato nel PDF di origine come testo separato. Allo stesso modo, puoi impostare i flag per cercare il testo solo all’interno della pagina rilegata o impostare un rettangolo per cercare il testo da un’area specificata solo in tutte le pagine.
Qui abbiamo imparato come convertire PDF in testo in Java insieme allo snippet di codice. Se vuoi imparare il processo per convertire PDF in Word, fai riferimento all’articolo su come convertire PDF in Word in Java.