Wyodrębnianie tekstu z PowerPoint przy użyciu Pythona

Ten krótki przewodnik opisuje, jak wyodrębnić tekst z PowerPoint przy użyciu Pythona. Zawiera szczegóły dotyczące konfiguracji IDE, listę kroków oraz przykładowy kod do konwersji PowerPointa na tekst przy użyciu Pythona. Omówione zostaną różne techniki pobierania tekstu ze slajdów.

Kroki do wyodrębniania tekstu z PPTX przy użyciu Pythona

  1. Ustaw IDE, aby używało Aspose.Slides for Python via .NET do wyodrębniania tekstu
  2. Importuj żądane klasy z biblioteki oraz klasę narzędziową SlideUtil
  3. Zdefiniuj ścieżki plików wejściowych/wyjściowych i załaduj licencję
  4. Załaduj źródłową prezentację PowerPoint do obiektu Presentation.
  5. Użyj SlideUtil.get_all_text_frames do wyodrębniania wszystkich ramek tekstowych z każdego slajdu
  6. Przejrzyj wszystkie ramki tekstowe i ich akapity, aby zebrać poszczególne fragmenty tekstu
  7. Przetwórz każdą klatkę i dołącz zawartość slajdu w nowej linii
  8. Zapisz wszystkie zebrane fragmenty tekstu i zapisz wynik do pliku TXT

Te kroki wyjaśniają proces tworzenia konwertera PPTX do tekstu przy użyciu Pythona. Załaduj prezentację, pobierz wszystkie ramki tekstowe, przeanalizuj każdy akapit we wszystkich ramkach i pobierz tekst z ich fragmentów. Zapisz wszystkie zebrane dane w pliku tekstowym, używając separatora linii dla każdego segmentu tekstu.

Kod konwertera PowerPoint na tekst przy użyciu Pythona

Ten kod pokazuje, jak przekształcić PPTX na TXT przy użyciu Pythona. Zamiast skanować całą prezentację jednocześnie, możesz uzyskać dostęp do każdego slajdu osobno i przetworzyć go, aby pobrać tekst tylko z wybranych slajdów. Inną opcją jest nie ładowanie prezentacji do pamięci i użycie jedynie ścieżki pliku do wyodrębnienia jej tekstu z flagą, aby pobrać tekst w ustalonej kolejności, jako oryginalny lub w płaskiej kolejności.

Ten krótki artykuł opisuje, jak wyodrębnić tekst z pliku PPTX. Aby przekonwertować prezentację na wideo, odwołaj się do artykułu Konwertowanie PowerPointa na wideo przy użyciu Pythona.

 Polski