Tento rychlý tutoriál vás provede jak číst soubor DOCX v Pythonu. Obsahuje veškeré informace potřebné ke konfiguraci prostředí, kroky, které je třeba dodržovat při psaní kódu, a spustitelný ukázkový kód Pythonu. Můžete také číst soubor DOC v Pythonu, stejně jako všechny ostatní soubory podporované MS Word pomocí stejných pokynů.
Kroky ke čtení souboru DOCX v Pythonu
- Nastavte vývojové prostředí tak, aby pro čtení souboru DOCX používalo Aspose.Words pro Python přes .NET
- Importujte jmenný prostor aspose.words a nastavte pro něj alias
- Načtěte vstupní soubor DOCX do objektu třídy Document, který se má číst pomocí Pythonu
- Proveďte cyklus pro načtení všech uzlů odstavců z načteného DOCX
- Přeneste každý uzel do odstavce
- Extrahujte obsah z každého odstavce a převeďte jej na řetězec pro zobrazení
Tyto kroky odpovídají na otázku, že jak může Python číst dokument Wordu sdílením konfigurace a dalších nezbytných podrobností. Vede k importu nezbytných jmenných prostorů, metod k načtení souboru DOCX, iteraci přes všechny uzly určitého typu, jako je odstavec v tomto ukázkovém kódu, a poté k převodu obsahu každého odstavce na řetězec pro zobrazení na konzole.
Kód pro čtení souboru Word v Pythonu
Tento kód v *Pythonu čte soubor Wordu tak, že jej načte a poté projde celým jeho obsahem. Můžete také číst vybraný text mezi odstavci a získat přístup k různým typům uzlů, jako je sekce, tělo, tabulka, tvar, komentář a zápatí záhlaví, abyste je mohli uvést. Můžete také získat informace na úrovni dokumentu, jako jsou vestavěné vlastnosti, opakováním kolekce Document.built_in_document_properties a použitím vlastností name a value každé položky k získání požadovaných informací.
Tento článek demonstroval čtení souboru Word v Pythonu. Pokud máte zájem o vytvoření souboru Word, přečtěte si článek na jak vytvořit dokument Word pomocí Pythonu.