Αυτό το απλό θέμα αφορά τον τρόπο μετατροπής του HTML σε κείμενο σε Java. Σε Java HTML σε απλό κείμενο η εφαρμογή μετατροπής που εκτελείται σε πλατφόρμες Windows, Linux ή macOS μπορεί να αναπτυχθεί χρησιμοποιώντας απλές και εύκολες διεπαφές API.
Βήματα για τη μετατροπή HTML σε κείμενο σε Java
- Διαμορφώστε το έργο σας για προσθήκη Aspose.HTML for Java από το αποθετήριο Maven
- Συμπεριλάβετε την αναφορά στον χώρο ονομάτων Aspose.HTML στην εφαρμογή σας
- Διαβάστε το περιεχόμενο του αρχείου προέλευσης HMTL χρησιμοποιώντας το αντικείμενο String
- Αρχικοποιήστε το αντικείμενο HTMLDocument class για να φορτώσετε τη συμβολοσειρά HTML πηγής
- Αρχικοποιήστε το αντικείμενο κλάσης INodeIterator σε κόμβους επανάληψης και προσαρτήστε το στο StringBuilder
- Αποθηκεύστε το εξαγόμενο κείμενο από HTML στο δίσκο
Για την εξαγωγή κειμένου από εφαρμογή που βασίζεται σε Java HTML χρησιμοποιώντας λίγες γραμμές κώδικα μπορεί να χρησιμοποιηθεί. Θα ξεκινήσουμε τη διαδικασία φορτώνοντας την πηγή HTML σε ένα αντικείμενο String και στη συνέχεια φορτώνοντας αυτήν τη συμβολοσειρά χρησιμοποιώντας HTMLDocument class. Στη συνέχεια θα χρησιμοποιήσουμε το INodeIterator για να εξαγάγουμε, να διασχίσουμε και να προσαρτήσουμε τους κόμβους HMTL σε ένα StringBuilder. Τέλος, το StringBuilder θα αποθηκευτεί ως αρχείο απλού κειμένου στο δίσκο.
Κώδικας για τη μετατροπή HTML σε κείμενο σε Java
Το παραπάνω παράδειγμα στο Java μετατρέπει το HTML σε απλό κείμενο σε λίγες κλήσεις API. Δημιουργήσαμε StyleFilter class που επεκτείνει την NodeFilter class και εφαρμόσαμε τη μέθοδο AcceptNode για να ορίσουμε τα φίλτρα κόμβου πελάτη και να παραλείψουμε τους ανεπιθύμητους κόμβους από την HTML κατά τη διαδικασία μετατροπής.
Σε αυτό το θέμα, έχουμε εξερευνήσει πώς να εξαγάγετε κείμενο από HTML σε Java. Εάν ενδιαφέρεστε για τη μετατροπή του αρχείου MD σε μορφή XPS, προχωρήστε στο θέμα πώς να μετατρέψτε το Markdown σε XPS χρησιμοποιώντας Java.