Extrahovat text z PowerPointu pomocí Java

Tento krátký tutoriál vysvětluje, jak extrahovat text z PowerPoint pomocí Javy. Poskytneme podrobnosti o nastavení IDE, seznam kroků a ukázkový kód pro vývoj konvertoru PowerPoint na text pomocí Javy. Budou diskutovány různé možnosti extrakce textu z prezentace.

Kroky k extrakci veškerého textu z PowerPointu pomocí Javy

  1. Nastavte prostředí tak, aby používalo Aspose.Slides for Java k převodu PPTX na TXT
  2. Importujte závislosti pro parsování snímků a výstup souboru
  3. Načtěte zdrojový soubor PPTX do paměti pomocí třídy Presentation.
  4. Načtěte všechny textové rámy, abyste shromáždili každý textový kontejner ze všech slides
  5. Procházejte všechny odstavce a části rámců a připojte text k objektu StringBuilder.
  6. Uložte výstupní soubor jako soubor TXT

Výše uvedené kroky shrnují proces extrahování textu z PPTX pomocí Javy. Načtěte prezentaci, přistupte ke všem textovým rámcům, vytvořte objekt StringBuilder a iterujte přes všechny rámce, abyste získali odstavce. Z každého odstavce získávejte části, extrahujte text z každé části a přidejte jej k instanci StringBuilder, a nakonec uložte nahromaděný text do souboru TXT.

Kód pro převod PPTX na TXT pomocí Javy

Tento kód demonstruje, jak převést PowerPoint na text pomocí Javy. Můžete extrahovat text snímek po snímku pomocí metody SlideUtil.getAllTextBoxes(), která přijímá snímek jako vstup, a extrahuje poznámky přednášejícího pomocí metody slide.getNotesSlideManager().getNotesSlide() a extrahovat text z tabulek pomocí snímku.getShapes(), která vrací kolekci tvarů a filtruje každý tvar, jenž je instancí ITable. Výstup JSON lze také vygenerovat vyplněním JsonObject a uložením dat do JSONArray.

Tento článek vysvětluje proces převodu PowerPointu na text. Pro převod prezentace na video se podívejte na článek Převod PowerPointu na video pomocí Javy.