Anhand dieses Beispiels erfahren Sie, wie Sie Text aus einem Word-Dokument in Python extrahieren**. Es enthält außerdem Informationen zum Konfigurieren der Entwicklungsumgebung mithilfe eines Schritt-für-Schritt-Workflows sowie einen Beispielcode zum Entwickeln eines Word-zu-TXT-Konverters mit Python. Diese Anwendung kann in jede Umgebung integriert werden, die Python und das .NET-Framework unter Windows, Linux oder macOS unterstützt.
Schritte zum Extrahieren von Text aus einem Word-Dokument in Python
- Richten Sie die Umgebung ein, indem Sie Aspose.Words für Python über .NET installieren, um die DOCX-Datei mit Python in eine TXT-Datei zu konvertieren
- Greifen Sie mithilfe einer Instanz der Klasse Document auf die Word-DOCX-Quelldatei zu
- Verwenden Sie eine Objektinstanz der Klasse TxtSaveOptions, um die erforderlichen Eigenschaften festzulegen
- Konvertieren Sie das geladene Word-Dokument mit der Speichermethode in eine TXT-Datei
Diese präzisen Schritte in Python extrahieren mithilfe einer sehr einfachen API-Schnittstelle Text aus einer DOCX-Datei. Der Prozess beginnt mit dem Zugriff auf die Quell-DOCX-Datei von der Festplatte mithilfe einer Instanz der Document-Klasse. Anschließend werden die gewünschten Eigenschaften der TXT-Ausgabedatei mithilfe des TxtSaveOptions-Klassenobjekts festgelegt. Abschließend wird die geladene Word-Dokumentdatei mit der Speichermethode als TXT-Datei auf der Festplatte gespeichert.
Code zum Konvertieren von DOCX in TXT in Python
import aspose.words as aw | |
import io | |
# Path to the source files | |
filePath = "Y:////KB//TestData//" | |
# Load the Aspose.Words license in your application to convert DOCX to TXT | |
wordtoTxtLicense = aw.License() | |
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic") | |
# Use the Document class object to access the source DOCX file | |
srcDocument = aw.Document(filePath + "Test1.docx") | |
#Optional Text saving options | |
txtOpts = aw.saving.TxtSaveOptions() | |
txtOpts.max_characters_per_line = 100 | |
txtOpts.save_format = aw.SaveFormat.TEXT | |
txtOpts.pretty_format = True | |
srcDocument.save(filePath + "ExtractedText.txt", txtOpts); | |
print ("Document converted to TXT successfully") |
Das Beispiel demonstriert die API-Funktion zum Konvertieren von DOCX in TXT in Python. Die Verwendung der Klasseninstanz TxtSaveOptions ist optional und Sie können die TXT-Datei mit den Standardoptionen speichern. Wenn Sie jedoch die TXT-Ausgabedatei anpassen möchten, können Sie verschiedene Eigenschaften verwenden, die von der TxtSaveOptions-Klasse bereitgestellt werden, einschließlich der Einstellung Encoding, force_page_breaks, max_characters_per_line, paragraph_break und pretty_format, um nur einige zu nennen.
In diesem Artikel haben wir gelernt, dass zum *Extrahieren von Text aus DOCX eine Python-basierte API eine gute Wahl sein kann. Wenn Sie lernen möchten, PDF-Dokumente zu vergleichen, lesen Sie den Artikel zu Vergleichen Sie PDF-Dokumente mit Python.