Πώς να διαβάσετε ένα έγγραφο του Word σε Java

Αυτό το σύντομο σεμινάριο παρουσιάζει πληροφορίες σχετικά με πώς να διαβάζετε το έγγραφο του Word σε Java παρέχοντας μια λεπτομερή διαδικασία βήμα προς βήμα και έναν κώδικα Java με δυνατότητα εκτέλεσης που διαβάζει το δείγμα εγγράφου με διαφορετικούς τρόπους. Εισάγει τις απαραίτητες κλάσεις που χρησιμοποιούνται για την ανάγνωση ενός αρχείου Word και την πρόσβαση στα διάφορα τμήματα του. Κατά την διαβάζοντας το έγγραφο του Word σε κώδικα Java όπως τα DOCX, DOC ή άλλα αρχεία που υποστηρίζονται από το MS Word, θα επαναλάβετε τους διαφορετικούς θυγατρικούς κόμβους του εγγράφου και θα επεξεργαστείτε τον καθένα σύμφωνα με τις απαιτήσεις σας.

Βήματα για την ανάγνωση του αρχείου Word σε Java

  1. Εγκαταστήστε το Aspose.Words for Java χρησιμοποιώντας το αποθετήριο Maven για να διαβάσετε το αρχείο DOCX
  2. Φορτώστε το αρχείο προέλευσης DOCX στο αντικείμενο κλάσης Document για ανάγνωση σε Java
  3. Επαναλάβετε όλους τους κόμβους τύπου Paragraph στο έγγραφο
  4. Μετατρέψτε κάθε κείμενο παραγράφου σε συμβολοσειρά και εμφανίστε το στην κονσόλα
  5. Επαναλάβετε όλους τους κόμβους τύπου Run στο έγγραφο
  6. Μετατρέψτε κάθε κόμβο σε τύπο Run και αποκτήστε πρόσβαση στο όνομα, το μέγεθος και το κείμενο της γραμματοσειράς του Run
  7. Εμφανίστε κάθε κείμενο εκτέλεσης στην κονσόλα

Αυτά τα βήματα περιγράφουν πώς να διαβάζετε το αρχείο του Word σε Java με κοινή χρήση συνδέσμου στη σελίδα διαμόρφωσης και, στη συνέχεια, καθοδήγηση για τη φόρτωση του εγγράφου προέλευσης του Word. Μόλις φορτωθεί το αρχείο Word, φορτώνεται επίσης το μοντέλο αντικειμένου εγγράφου (DOM), δηλαδή η λογική δομή και μπορεί να αναλυθεί με διαφορετικούς τρόπους. Αυτά τα βήματα βοηθούν στην προετοιμασία δύο κύριων συλλογών που είναι οι Παράγραφοι και οι Εκτελέσεις για πρόσβαση σε διαφορετικά μέρη του φορτωμένου εγγράφου του Word.

Κώδικας για ανάγνωση αρχείου DOCX σε Java

Αυτός ο Κώδικας Java για την ανάγνωση του εγγράφου του Word δείχνει την ανάλυση του DOM χρησιμοποιώντας διαφορετικά φίλτρα, π.χ. στην αρχή, φέρουμε όλους τους κόμβους παραγράφου. Η κλάση Paragraph παρέχει τη συνάρτηση toString() που εξάγει κείμενο από ολόκληρη την παράγραφο, συμπεριλαμβανομένων των πινάκων κ.λπ. και το αποθηκεύει σε μια μεταβλητή συμβολοσειράς. Ομοίως, όταν αναλύουμε το έγγραφο για να ανακτήσουμε όλες τις εκτελέσεις, διαχωρίζει τα περιεχόμενα με βάση το στυλ, τη γραμματοσειρά, τον τύπο κόμβου κ.λπ. και διαιρεί μια παράγραφο σε πολλά τμήματα με βάση το στυλ γραμματοσειράς του κειμένου, όπως το έντονο κείμενο θα παρέχεται ξεχωριστά, πλάγια κείμενο χωριστά και ούτω καθεξής.

Αυτός ο οδηγός μας καθοδήγησε να διαβάσουμε ένα αρχείο DOCX, ωστόσο, εάν θέλετε κάποιο είδος μετατροπής όπως το Word σε PDF, ανατρέξτε στο άρθρο στο πώς να μετατρέψετε το Word σε PDF σε Java.

 Ελληνικά