Extrahovat text z PowerPointu pomocí Pythonu

Tento stručný průvodce popisuje, jak extrahovat text z PowerPoint pomocí Pythonu. Obsahuje podrobnosti o nastavení IDE, seznam kroků a ukázkový kód k převodu PowerPointu na text pomocí Pythonu. Různé techniky budou diskutovány pro získání textu ze snímků.

Kroky pro extrakci textu z PPTX pomocí Pythonu

  1. Nastavte IDE tak, aby používalo Aspose.Slides for Python via .NET k extrahování textu
  2. Importujte požadované třídy z knihovny a utilitní třídu SlideUtil
  3. Definujte cesty k vstupním/výstupním souborům a načtěte licenci
  4. Načtěte zdrojovou prezentaci PowerPoint do objektu Presentation
  5. Použijte SlideUtil.get_all_text_frames k extrahování všech textových rámců z každého snímku
  6. Procházejte všechny textové rámy a jejich odstavce, abyste shromáždili jednotlivé textové úseky
  7. Zpracujte každý rámec a přidejte obsah snímku do nového řádku
  8. Uložte všechny sesbírané textové úseky a uložte výstup do souboru TXT.

Tento postup vysvětluje proces vývoje konvertoru PPTX na text pomocí Pythonu. Načtěte prezentaci, získejte z ní všechny textové rámečky, analyzujte každý odstavec ve všech rámečcích a načtěte text z jejich částí. Uložte všechna shromážděná data do textového souboru s oddělovačem řádků pro každý textový úsek.

Kód pro převod PowerPoint na text pomocí Pythonu

Tento kód ukazuje, jak převést PPTX na TXT pomocí Pythonu. Místo skenování celé prezentace najednou můžete přistupovat k jednotlivým snímkům samostatně a zpracovat je tak, aby získaly text pouze z vybraných snímků. Další možností je, že nenačítáte prezentaci do paměti a jen použijete cestu k souboru k extrakci jeho textu s příznakem pro získání textu ve uspořádaném pořadí, jako originál nebo v plochém pořadí.

Tento stručný článek vás provádí extrakcí textu z PPTX. Pro převod prezentace na video se podívejte na článek Convert PowerPoint to video using Python.

 Čeština