Αυτός ο σύντομος οδηγός παρέχει λεπτομέρειες σχετικά με τον τρόπο μετατροπής PDF σε κείμενο σε Java φορτώνοντας το έγγραφο εισόδου PDF και αποθηκεύοντάς το στη μορφή Text. Επιπλέον, η χρήση του Μετατροπέα Java PDF σε Κείμενο μπορεί να προσαρμοστεί ώστε να ελέγχεται εάν θέλετε το κείμενο εξόδου με ή χωρίς μορφοποίηση σε σύγκριση με το αρχείο προέλευσης PDF.
Βήματα για τη μετατροπή PDF σε κείμενο σε Java
- Διαμορφώστε την εφαρμογή σας προσθέτοντας την αναφορά στο Aspose.PDF από το αποθετήριο Maven για να μετατρέψετε το PDF σε αρχείο κειμένου
- Φορτώστε το αρχείο PDF εισόδου με το αντικείμενο κλάσης Document για μετατροπή του PDF σε αρχείο κειμένου
- Δημιουργήστε ένα αντικείμενο κλάσης TextAbsorber για να ορίσετε τις επιλογές εξαγωγής κειμένου
- Γράψτε το εξαγόμενο κείμενο σε ένα αρχείο κειμένου
Τα παραπάνω βήματα επεξεργάζονται τη διαδικασία ανάπτυξης μιας εφαρμογής μετατροπέα PDF σε Κείμενο Java. Στο πρώτο βήμα, το έγγραφο εισόδου PDF φορτώνεται χρησιμοποιώντας την παρουσία της κλάσης Document και, στη συνέχεια, επιλέξτε εάν θέλετε το κείμενο με μορφοποίηση ή όχι. Τέλος, μπορείτε να χρησιμοποιήσετε τη συμβολοσειρά κειμένου για να γράψετε σε ένα αρχείο ή να το επεξεργαστείτε περαιτέρω σύμφωνα με τις απαιτήσεις σας.
Κώδικας για μετατροπή PDF σε κείμενο σε Java
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Αυτό το δείγμα κώδικα δείχνει ότι με τη χρήση του Java convert PDF σε κείμενο με πλήρη έλεγχο χρησιμοποιώντας διαφορετικές επιλογές όπως η κλάση TextAbsorber έχει πολλούς κατασκευαστές όπου μπορείτε να χρησιμοποιήσετε το TextSearchOptions που παρέχει την επιλογή να μετατρέψετε το σκιασμένο κείμενο σε PDF πηγής ως ξεχωριστό κείμενο. Ομοίως, μπορείτε να ορίσετε σημαίες για αναζήτηση κειμένου μόνο εντός του δεσμευμένου σελίδας ή να ορίσετε ένα ορθογώνιο για αναζήτηση του κειμένου από μια καθορισμένη περιοχή μόνο σε όλες τις σελίδες.
Εδώ μάθαμε πώς να μετατρέπουμε PDF σε κείμενο σε Java μαζί με το απόσπασμα κώδικα. Εάν θέλετε να μάθετε τη διαδικασία μετατροπής PDF σε Word, ανατρέξτε στο άρθρο στο πώς να μετατρέψετε PDF σε Word σε Java.