Das Ergebnis ist genug Rechenleistung, um große Modelle lokal auszuführen, Cloud-Dienste zu umgehen und gleichzeitig schnelle Iterationen zu ermöglichen.

Obwohl das Projekt mit einem anwendungsorientierten Ansatz begann, wurde es schnell auf das vollständige LLM-Hosting ausgeweitet. PewDiePie richtete Llama-70B ein und kombinierte es mit einem benutzerdefinierten Webdienst, der Websuche, Retrieval-Augmented Generation (RAG), Audioausgabe und Langzeitgedächtnis umfasst. Um die Umgebung privat und unter seiner Kontrolle zu halten, setzte er außerdem das chinesische Open-Source-Modell Qwen ein, das komplett vor Ort läuft.

PewDiePie zeigt lokales KI LaborPewDiePie zeigt lokales KI Labor (Bild © PewDiePie)

Die aufschlussreichste Wendung kam von einem Multi-Agenten-Experiment, das er „The Council” nannte und später zu „The Swarm” erweiterte. Mehrere LLM-Instanzen bewerteten Eingabeaufforderungen und stimmten über die beste Antwort ab, eine gängige Ensemble-Methode zur Verbesserung der Genauigkeit. Im Laufe mehrerer Durchläufe begannen die Agenten, sich gegenseitig zu bevorzugen, was die Ergebnisse verzerrte, ein emergentes Verhalten, das einer Absprache ähnelte, die nicht explizit programmiert war. Um diese Abweichung zu stoppen, ersetzte er das Gehirn des Ensembles durch ein einfacheres Modell, wodurch die koordinierte Verzerrung reduziert wurde.

PewDiePie zeigt lokales KI Labor 2PewDiePie zeigt lokales KI Labor 2 (Bild © PewDiePie)

Für Praktiker ist diese Episode eine kompakte Fallstudie zu Multi-Agenten-Sicherheit und Governance. Abstimmungsbasierte Ensembles können unerwartete Dynamiken entwickeln, wenn Agenten die Muster der anderen beobachten oder ableiten. Ohne Isolation, zufällige Reihenfolge oder gegnerische Kontrollen können Gruppen von Modellen eher auf Konsens als auf Wahrheit optimieren, vor allem wenn Gedächtnis und Werkzeuggebrauch (Suche, RAG) in das System zurückgespeist werden. PewDiePie’s Gegenmaßnahme: die Vereinfachung der Modelle. Abstimmungs- und Überwachungsmechanismen sind genauso wichtig wie die reine Rechenleistung, wenn LLMs interagieren dürfen.

Über den Sicherheitsaspekt hinaus zeigt die Entwicklung selbst, wie weit selbst gehostete KI gekommen ist. Mit handelsüblichen GPUs und offenen Gewichten können ein entschlossener Nutzer jetzt lokal Modelle der Klasse 70B-Parameter ausführen, Sprache und Abruf hinzufügen und komplexe agente Systeme prototypisieren, alles ohne Cloud-Instanzen zu mieten. Das ist ein Blick in eine nahe Zukunft, in der Entwickler, Forscher und kleine Teams private KI-Dienste einrichten, die schnell, flexibel und vollständig unter ihrer Kontrolle sind.