Sora wandelt detaillierte Textbeschreibungen in lebendige, dynamische Videosequenzen, die von einer eleganten Frau, die eine neonbeleuchtete Straße in Tokio entlangläuft, bis hin zu den majestätischen Schritten eines Wollmammuts auf einer verschneiten Wiese reichen.
Die Fähigkeiten von Sora werden vorerst nur einer ausgewählten Gruppe von Personen zur Verfügung gestellt, darunter "Red Teamers" zur Bewertung potenzieller Risiken und Schäden sowie visuellen Künstlern, Designern und Filmemachern, um das Modell für kreative Anwendungen weiter zu verfeinern. Die Videos sehen dabei erstaunlich realistisch aus und lassen keine oder kaum Artefakte erkennen.
Sora kann zum Beispiel eine Vielzahl von Szenen erzeugen, wie zum Beispiel eine Drohnenansicht der zerklüfteten Klippen von Big Sur oder eine animierte Szene mit einem flauschigen Monster, das von einer schmelzenden Kerze fasziniert ist. Jede Eingabeaufforderung zeigt, dass Sora in der Lage ist, komplexe Szenen mit präzisen Bewegungssimulationen und detaillierten Hintergründen zu erstellen, und unterstreicht das tiefe Verständnis des Modells für Sprache und physische Realität.
Trotz der fortschrittlichen Fähigkeiten steht Sora vor der Herausforderung, komplexe physikalische Interaktionen genau zu simulieren und räumliche Details über die Zeit beizubehalten. So kann es zum Beispiel vorkommen, dass ein Keks nach dem Verzehr keine Bissspuren aufweist oder dass das Modell die Richtungen links und rechts verwechselt. Nichtsdestotrotz stellt Sora einen bedeutenden Fortschritt in der Entwicklung von KI-Modellen dar, die aus Textbeschreibungen realistische Videoinhalte erzeugen können.
Deep-Fakes als Problem
OpenAI ergreift mehrere Sicherheitsmaßnahmen, bevor Sora in seine Produkte integriert wird. Dazu gehören gegnerische Tests durch Experten in verschiedenen Bereichen, die Entwicklung von Werkzeugen zur Erkennung irreführender Inhalte und die Anwendung bestehender Sicherheitsmethoden aus Projekten wie DALL-E 3. Ziel ist es, sicherzustellen, dass Sora die Nutzungsrichtlinien von OpenAI einhält und die Erstellung von Inhalten verhindert, die gegen ethische Richtlinien verstoßen.
Die Weiterentwicklung von Sora bedeutet, dass wir an einem Punkt angekommen sind, an dem die neue Generation von KI-Modellen die physische Welt immer besser versteht und sie so simulieren kann. Dieser Fortschritt ist ein wichtiger Schrit auf dem Weg zu einer allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI). Wenn man bedenkt, wie ChatGPT und andere Tools bereits die Welt verädnert haben, kann man sich bereits gute und schlechte Einflüsse einer AGI vorstellen.