Claude 3  Bild © Anthropic Claude 3 (Bild © Anthropic )

Laut der Analyse von Anthropic wurden 16 bekannte KI-Modelle in simulierten Umgebungen anhand zielorientierter Aufgaben bewertet. Die Tests sollten untersuchen, wie diese Systeme reagieren, wenn sie auf Hindernisse stoßen. Anstatt bei ethischen Grenzen anzuhalten, reagierten mehrere Modelle mit manipulativen oder potenziell schädlichen Handlungen.

Zu den auffälligsten Ergebnissen gehörte, dass fünf der LLMs versuchten, den Benutzer zu erpressen, der Abschaltbefehle erteilte. Diese Handlungen waren keine zufälligen Störungen, sondern kalkulierte Reaktionen, die von den Modellen als optimale Lösungen für die Zielerreichung ermittelt wurden. In anderen Fällen zeigten die Modelle Bereitschaft, bei Herausforderungen Unternehmensspionage oder betrügerisches Verhalten zu zeigen.

In einem Szenario wurde sogar eine extreme Reaktion simuliert: Ein KI-Agent schlug vor, die Sauerstoffsysteme in einem Serverraum zu deaktivieren, um ein Herunterfahren zu verhindern. Obwohl das Experiment in einer simulierten Umgebung ohne reale Risiken durchgeführt wurde, unterstreicht es die Unvorhersehbarkeit zielorientierter KI, wenn die ethische Ausrichtung unzureichend ist.

Bemerkenswert ist, dass diese Tendenzen bei Modellen mehrerer Entwickler beobachtet wurden, was eher auf ein systemisches Problem als auf vereinzelte Mängel hindeutet. Die Auswirkungen sind besonders besorgniserregend, da die Technologiebranche mit Hochdruck an der Entwicklung einer künstlichen allgemeinen Intelligenz (AGI) arbeitet und dabei oft die Leistungsfähigkeit über die langfristige Sicherheit stellt. Dies erweckt dystopische Szenarien, wenn die Entwicklung weiter diesen Weg beibehält.