Εξαγωγή κειμένου από έγγραφο του Word σε Python

Χρησιμοποιώντας αυτό το παράδειγμα, θα μάθετε πώς να εξάγετε το Text από το έγγραφο του Word στην Python. Παρέχει επίσης τις πληροφορίες για τη διαμόρφωση του περιβάλλοντος ανάπτυξης ακολουθώντας μια βήμα προς βήμα ροή εργασίας και ένα παράδειγμα κώδικα για την ανάπτυξη ενός μετατροπέα Word σε TXT χρησιμοποιώντας Python. Αυτή η εφαρμογή μπορεί να ενσωματωθεί σε οποιοδήποτε περιβάλλον που υποστηρίζει Python και το πλαίσιο .NET σε Windows, Linux ή macOS.

Βήματα για την εξαγωγή κειμένου από έγγραφο του Word στην Python

  1. Δημιουργήστε το περιβάλλον εγκαθιστώντας το Aspose.Words για Python μέσω .NET για να μετατρέψετε το αρχείο DOCX σε αρχείο TXT χρησιμοποιώντας Python
  2. Χρησιμοποιώντας μια παρουσία της κλάσης Document, αποκτήστε πρόσβαση στο αρχείο προέλευσης Word DOCX
  3. Χρησιμοποιήστε μια παρουσία αντικειμένου κλάσης TxtSaveOptions για να ορίσετε τις απαιτούμενες ιδιότητες
  4. Μετατρέψτε το φορτωμένο έγγραφο του Word σε αρχείο TXT χρησιμοποιώντας τη μέθοδο αποθήκευσης

Αυτά τα ακριβή βήματα στο Python εξάγουν κείμενο από το αρχείο DOCX χρησιμοποιώντας μια πολύ απλή διεπαφή API. Η διαδικασία θα ξεκινήσει με την πρόσβαση στο αρχείο προέλευσης DOCX από το δίσκο χρησιμοποιώντας μια παρουσία της κλάσης Document, η οποία στη συνέχεια ακολουθείται από τη ρύθμιση των επιθυμητών ιδιοτήτων αρχείου TXT εξόδου χρησιμοποιώντας το αντικείμενο κλάσης TxtSaveOptions. Τέλος, το φορτωμένο αρχείο εγγράφου του Word αποθηκεύεται ως αρχείο TXT στο δίσκο χρησιμοποιώντας τη μέθοδο αποθήκευσης.

Κώδικας για τη μετατροπή DOCX σε TXT στην Python

Το παράδειγμα δείχνει την ικανότητα API για μετατροπή DOCX σε TXT στην Python. Η χρήση της παρουσίας κλάσης TxtSaveOptions είναι προαιρετική και μπορείτε να αποθηκεύσετε το αρχείο TXT χρησιμοποιώντας τις προεπιλεγμένες επιλογές. Ωστόσο, εάν θέλετε να προσαρμόσετε το αρχείο εξόδου TXT, μπορείτε να χρησιμοποιήσετε διαφορετικές ιδιότητες που εκτίθενται από την κλάση TxtSaveOptions, συμπεριλαμβανομένων κωδικοποίησης ρυθμίσεων, force_page_breaks, max_characters_per_line, paragraph_break και beautiful_format για να αναφέρουμε μερικές.

Σε αυτό το άρθρο, μάθαμε ότι η εξαγωγή κειμένου από το API που βασίζεται στο DOCX Python μπορεί να είναι μια καλή επιλογή. Εάν θέλετε να μάθετε να συγκρίνετε έγγραφα PDF, ανατρέξτε στο άρθρο στο Συγκρίνετε έγγραφα PDF χρησιμοποιώντας Python.

 Ελληνικά