NVIDIA Nemotron 3  Bild © NVIDIANVIDIA Nemotron 3 (Bild © NVIDIA)

Nemotron 3 - Drei Modellstufen

Nemotron 3 ist in den Konfigurationen Nano, Super und Ultra erhältlich, damit Teams die Leistung und Kosten pro Anwendungsfall optimal anpassen können:

  • Nemotron 3 Nano (~30 Mrd. Parameter; ~3 Mrd. aktiv pro Token) konzentriert sich auf Effizienz für Code-Unterstützung, Zusammenfassung, suchgestützte Generierung und allgemeine Assistenz-Workflows. Es führt ein 1.000.000-Token-Kontextfenster ein, das die Genauigkeit bei mehrstufigen Aufgaben und großen Arbeitssätzen verbessert. NVIDIA gibt an, dass der Token-Durchsatz bis zu viermal höher ist als bei Nemotron 2 Nano und dass bis zu 60 % weniger Reasoning-Token gebraucht werden, was direkt die Inferenzkosten senkt. Jetzt verfügbar.
  • Nemotron 3 Super (~100 Mrd.; ~10 Mrd. aktiv) ist für die Multi-Agenten-Orchestrierung mit geringer Latenz gedacht, wo viele Spezialisten zusammenarbeiten müssen, um komplexe Aufgaben zu erledigen. Verfügbar im ersten Halbjahr 2026.
  • Nemotron 3 Ultra (~500 Mrd.; ~50 Mrd. aktiv) dient als Deep-Reasoning-Engine für Analysen, Planungen und mehrstufige Workflows auf Forschungsniveau. Verfügbar im ersten Halbjahr 2026.

Sowohl Super als auch Ultra nutzen NVFP4 4-Bit-Training auf der Blackwell-Plattform, was den Speicherbedarf reduziert und das Training beschleunigt, während die Genauigkeit im Vergleich zu Formaten mit höherer Präzision erhalten bleibt. Das Design ist so ausgelegt, dass größere Modelle auf bestehenden Clustern ohne aufwendige Umstellung der Plattform skaliert werden können.

Offene Daten und RL-Bibliotheken

Um die Feinabstimmung und Sicherheitsarbeiten zu beschleunigen, veröffentlicht NVIDIA drei Billionen Token an Datensätzen für Vortraining, Nach-Training und verstärkendes Lernen sowie den Nemotron Agentic Safety Dataset mit Telemetriedaten für Stresstests komplexer Agentenverhalten.

Eine neue Suite von Open-Source-Bibliotheken ergänzt die Daten:

  • NeMo Gym und NeMo RL: standardisierte Umgebungen und RL-Tools für Nemotron-Modelle nach dem Training und spezialisierte Agenten.
  • NeMo Evaluator: Sicherheits- und Leistungsvalidierung zum Benchmarking von Modelliterationen.

Diese Ressourcen sind auf GitHub und Hugging Face verfügbar und werden von LM Studio, llama.cpp, SGLang und vLLM unterstützt. Tool-Anbieter wie Prime Intellect und Unsloth integrieren NeMo Gym-Umgebungen, um die Einrichtungszeiten für RL zu verkürzen.

Lokalen Installation

Nemotron 3 wurde entwickelt, um heterogenen Umgebungen und souveränen KI-Beschränkungen gerecht zu werden:

  • Nemotron 3 Nano kann von Hugging Face abgerufen oder über Partner wie Baseten, DeepInfra, Fireworks, FriendliAI, OpenRouter und Together AI bereitgestellt werden.
  • Unternehmen können die Lösung über Couchbase, DataRobot, H2O.ai, JFrog, Lambda und UiPath bereitstellen oder NVIDIA NIM-Microservices auf einer NVIDIA-beschleunigten Infrastruktur für private, konforme Umgebungen ausführen.
  • Der Zugriff auf die öffentliche Cloud umfasst AWS (über Amazon Bedrock Serverless) sowie Unterstützung für Google Cloud, CoreWeave, Crusoe, Microsoft Foundry, Nebius, Nscale und Yotta, sobald die regionale Einführung voranschreitet.

Entwickelt für Multi-Agent-Ökonomie und Transparenz Nemotron 3 ist so ausgelegt, dass es Aufgaben über offene und proprietäre Modelle innerhalb eines einzigen Workflows weiterleitet, sodass Unternehmen bei Bedarf modernste Schlussfolgerungen mit kosteneffizienter offener Inferenz kombinieren können. Die offene Veröffentlichung – Modelle, Daten und Bibliotheken – zielt darauf ab, die von regulierten Sektoren und nationalen KI-Programmen geforderte Überprüfbarkeit und Portabilität zu bieten und gleichzeitig Start-ups und etablierten Unternehmen eine schnelle Iteration vom Prototyp bis zur Produktion zu ermöglichen.