Naudodami šį pavyzdį sužinosite, kaip ištraukti Text iš Word dokumento programoje Python. Jame taip pat pateikiama informacija, kaip konfigūruoti kūrimo aplinką, laikantis nuoseklios darbo eigos, ir kodo pavyzdys, kaip sukurti Word į TXT konverterį naudojant Python. Šią programą galima integruoti į bet kurią aplinką, palaikančią Python ir .NET sistemą Windows, Linux arba macOS.
Veiksmai, kaip ištraukti tekstą iš „Word“ dokumento „Python“.
- Sukurkite aplinką įdiegdami Aspose.Words, skirtas Python per .NET, kad konvertuotumėte DOCX failą į TXT failą naudodami Python
- Naudodami Document klasės egzempliorių, pasiekite šaltinio Word DOCX failą
- Norėdami nustatyti reikiamas savybes, naudokite TxtSaveOptions klasės objekto egzempliorių
- Konvertuokite įkeltą Word dokumentą į TXT failą naudodami išsaugojimo metodą
Šie tikslūs žingsniai Python ištraukia tekstą iš DOCX failo naudojant labai paprastą API sąsają. Procesas prasidės prieiga prie šaltinio DOCX failo iš disko naudojant Document klasės egzempliorių, po kurio bus nustatytos norimos išvesties TXT failo ypatybės, naudojant klasės objektą TxtSaveOptions. Galiausiai įkeltas Word dokumento failas išsaugomas kaip TXT failas diske naudojant išsaugojimo metodą.
Kodas, skirtas konvertuoti DOCX į TXT programoje Python
Pavyzdyje parodyta API galimybė konvertuoti DOCX į TXT programoje Python. TxtSaveOptions klasės egzemplioriaus naudojimas yra neprivalomas ir galite išsaugoti TXT failą naudodami numatytąsias parinktis. Tačiau, jei norite tinkinti išvesties TXT failą, galite naudoti skirtingas TxtSaveOptions klasės ypatybes, įskaitant nustatymo kodavimą, force_page_breaks, max_characters_per_line, paragraph_break ir pretty_format.
Šiame straipsnyje mes sužinojome, kad norint ištraukti tekstą iš DOCX Python, tai gali būti geras pasirinkimas. Jei norite išmokti palyginti PDF dokumentus, žr. straipsnį Palyginkite PDF dokumentus naudodami Python.