ROCm7 Logo (Bild © AMD)
Was ist neu in ROCm 7.0?
- CDNA 4-Unterstützung für MI350: Treiber, Bibliotheken und Compiler-Pfade, die auf die neueste Instinct-Hardware abgestimmt sind und die große Bandbreite des Speichers sowie aktualisierte Recheneinheiten nutzen, um den Durchsatz beim Transformer-Training und bei der Inferenz großer Datenmengen zu steigern.
- Geringe Präzisionsbeschleunigung: Kernel- und Laufzeitoptimierungen für FP4, FP6 und FP8 ermöglichen einen größeren Token-Durchsatz und einen geringeren Stromverbrauch pro Abfrage, wodurch die heutigen LLM-Wirtschaftlichkeitsanforderungen erfüllt werden, ohne die Genauigkeit zu beeinträchtigen, wo es darauf ankommt.
- Verteilte Inferenz in großem Maßstab: Die Unterstützung von Multi-GPU-Clustern optimiert Sharding und Tensor-Parallelität, sodass die Modellbereitstellung mit vorhersehbarer Latenz horizontal skaliert werden kann.
- HIP 7.0-Portabilität: Die neueste Heterogeneous-Compute Interface for Portability reduziert Reibungsverluste bei der Ausrichtung auf verschiedene Anbieter und Geräte und hilft Teams dabei, eine einzige Codebasis für heterogene Flotten aufrechtzuerhalten.
Unternehmenskontrollen und Workflows:
- AMD Resource Manager: richtliniengesteuerte Zuweisung und Beobachtbarkeit für gemeinsam genutzte Beschleunigerpools.
- AMD AI Workbench: Kuratierte Workflows, Vorlagen und Profiling-Hooks, um Trainings- und Serving-Pipelines schneller aufzubauen.
- Container mit integrierten Batterien: Vorgefertigte Docker-Images für vLLM und SGLang, gebündelt mit quantisierten Checkpoints wie Llama 3.3 70B, Llama 3.1-405B und DeepSeek R1, ermöglichen eine schnelle Bewertung und Bereitstellung auf Instinct-Hardware.
ROCm 7.0 verkürzt den Feedback-Kreislauf von der Forschung bis zur Produktion. Teams können mit quantisierten Modellen sofort Prototypen erstellen und dann mit demselben Stack auf Multi-GPU-Serving skalieren, während HIP 7.0 Portabilitätsrisiken abfedert. Für Betreiber bieten Resource Manager und AI Workbench die notwendigen Leitplanken und Beobachtungsmöglichkeiten, um Beschleuniger über Mandanten und Workloads hinweg gemeinsam zu nutzen.
ROCm 7.0 ist jetzt über den ROCm AI Developer Hub verfügbar, inklusive Dokumentation, Schnellstartanleitungen und vorgefertigten Containern. Die Veröffentlichung folgt auf ROCm 6.4, das Unterstützung für Radeon RX 9000 und Ryzen AI MAX hinzugefügt hat, und steht im Einklang mit dem Versprechen von AMD, neue Grafikkarten-Architekturen bei der Markteinführung zu unterstützen und so die Verzögerung zwischen Silizium und Software zu reduzieren.