Claude Fable 5 und Mythos 5 Release (Bild © Anthropic)
Technische Benchmarks und Auswirkungen auf die Entwicklung
Die neuen Modelle zeigen eine deutliche Steigerung der Autonomie bei komplexen, langwierigen Aufgaben. In der Softwareentwicklung haben die Modelle die Fähigkeit unter Beweis gestellt, migrationsbezogene Aufgaben im gesamten Code-Basis in einem Bruchteil der Zeit auszuführen, die menschliche Teams benötigen würden. Tests an einer 50 Millionen Zeilen umfassenden Ruby-Code-Basis zeigten, dass Arbeiten, die normalerweise monatelangen manuellen Aufwand erfordern, innerhalb eines Tages abgeschlossen werden konnten.
Im Bereich der Wissensarbeit zeigen die Modelle eine deutliche Verbesserung beim logischen Denken auf Führungsebene. Dazu gehören eine höhere Präzision bei der Analyse von Finanzdokumenten, der Interpretation von Diagrammen und der Bewertung von Handelsanalysen, insbesondere in Bezug auf Ursachen- und Erwartungswertanalysen.
Auch die visuellen Fähigkeiten wurden aktualisiert. Fable 5 kann nun den Quellcode von Webanwendungen allein anhand von Screenshots rekonstruieren und präzise Daten aus wissenschaftlichen Diagrammen extrahieren. Das Modell stellte sein visuelles Schlussfolgern zudem unter Beweis, indem es das Spiel Pokémon FireRed anhand von Roh-Screenshots ohne Hilfe von Navigationswerkzeugen oder externen Spielstanddaten abschloss.
Durchbrüche in den Lebenswissenschaften und der Genomik
Das spezialisierte Mythos-5-Modell wurde eingesetzt, um das Wirkstoffdesign und die Molekularbiologie zu beschleunigen. Interne Tests zeigten eine Verzehnfachung der Geschwindigkeit bestimmter Proteindesign-Prozesse. Das Modell arbeitete autonom bei der Auswahl von Bindungsstellen und der Verwaltung bioinformatischer Werkzeuge und erreichte dabei die Leistung erfahrener menschlicher Forscher bei mehreren Protein-Targets.
Darüber hinaus hat das Modell zur Genomforschung beigetragen. Durch die Zusammenführung von Einzelzelldaten von 138 Tierarten entwickelte das System ein maßgeschneidertes Modell für maschinelles Lernen, um zelluläre Funktionen bei verschiedenen Organismen zu identifizieren. Diese autonome Arbeit führte zu einem Modell, das die in der Fachzeitschrift Science veröffentlichten bestehenden Forschungsergebnisse übertraf.
Sicherheitsarchitektur und das Fallback-System
Um Risiken im Zusammenhang mit Cybersicherheit und biologischer Forschung zu mindern, setzt Fable 5 ein System von Sicherheitsklassifikatoren ein. Diese unabhängigen KI-Systeme erkennen potenziellen Missbrauch oder Versuche, Sicherheitsprotokolle zu umgehen.
Anstatt eine standardmäßige Ablehnung auszusprechen, nutzt das System einen Fallback-Mechanismus. Wenn eine Anfrage zu Chemie, Biologie oder Cybersicherheit markiert wird, wird die Anfrage an Claude Opus 4.8 weitergeleitet. Dies stellt sicher, dass Nutzer weiterhin eine qualitativ hochwertige Antwort erhalten, während gleichzeitig verhindert wird, dass das leistungsfähigste Modell potenziell gefährliche Unterstützung für böswillige Akteure bietet.
Um die unbefugte Extraktion von Modellgewichten und -fähigkeiten zu verhindern, wurden zudem neue Klassifikatoren implementiert, um Destillationsversuche zu erkennen und zu blockieren.
Datenverwaltung und Zugangsbedingungen
Für alle Modelle der Mythos-Klasse gilt nun eine überarbeitete Richtlinie zur Datenaufbewahrung. Das Unternehmen wird eine Aufbewahrungsfrist von 30 Tagen für den gesamten Datenverkehr beibehalten, um komplexe Angriffe besser abzuwehren und die Sicherheitsklassifikatoren zu verfeinern. Diese Daten werden nicht für das Modelltraining verwendet und unterliegen strengen Löschprotokollen.
Claude Fable 5 ist ab sofort über die API sowie in den Abonnementplänen Pro, Max, Team und Enterprise verfügbar. Für Abonnenten ist das Modell bis zum 22. Juni ohne zusätzliche Kosten enthalten; danach kann die Nutzung je nach Systemkapazität Credits erfordern.
Die Preise für Fable 5 und Mythos 5 liegen bei 10 USD pro Million Eingabetoken und 50 USD pro Million Ausgabetoken. Der Zugang zu Mythos 5 bleibt auf Partner des Project Glasswing sowie ein wachsendes Programm für vertrauenswürdigen Zugang für Forscher aus den Bereichen Cybersicherheit und Biomedizin beschränkt.



