AMD ROCm 6.0 Release (Bild © AMD)
Die Windows-Builds bieten native PyTorch-Unterstützung für AMD-Hardware, sodass beliebte Open-Source-Modellstacks direkt auf Radeon- oder Ryzen AI-Geräten ausgeführt werden können. In der Praxis bedeutet das, dass Entwickler Transformers-basierte Pipelines erstellen, LLM-Inferenz testen und Prototypen von Apps auf Standard-Windows 11-Desktops oder -Workstations erstellen können.
Unterstützte Plattformen
- GPUs: Radeon RX 7900 XTX / XT / GRE, RX 9070 XT / 9070 / 9070 GRE, RX 9060 XT, Radeon AI PRO R9700, Radeon PRO W7900 (inkl. Dual-Slot).
- APUs: Ryzen AI Max+ 395, AI Max 390/385, Ryzen AI 9 HX 375 / HX 370 / 365.
- Betriebssystem: Windows 11
- Treiber: AMD PyTorch auf Windows Preview Edition 25.20.01.14
- Python: 3.12 (während der Installation zum PATH hinzufügen)
Erste Schritte: der kurze Weg
Die Vorschau wird als Wheel-Builds bereitgestellt, die im Repository von AMD gehostet werden. Bei einer typischen Einrichtung wird eine virtuelle Umgebung genutzt und Folgendes installiert:
pip install --no-cache-dir \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torch-2.8.0a0%2Bgitfc14c65-cp312-cp312-win_amd64.whl \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torchaudio-2.6.0a0%2B1a8f621-cp312-cp312-win_amd64.whl \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torchvision-0.24.0a0%2Bc85f008-cp312-cp312-win_amd64.whl
pip install transformers accelerate
Der Leitfaden empfiehlt, zuerst eine Projekt-venv zu erstellen:
python -m venv llm-pyt
llm-pyt\Scripts\activate
Erster Lauf: Llama 3.2 1B auf Radeon
Wenn die Umgebung aktiv ist, zieht eine Beispiel-Transformers-Pipeline unsloth/Llama-3.2-1B-Instruct und führt eine Eingabeaufforderung mit halber Genauigkeit auf der Grafikkarte aus:
# python
import torch
from transformers import pipeline
model_id = „unsloth/Llama-3.2-1B-Instruct“
pipe = pipeline(
„text-generation“,
model=model_id,
dtype=torch.float16,
device_map="auto"
)
print(pipe(„Der Schlüssel zum Leben ist“))
Bei der ersten Ausführung werden die Modellgewichte (mehrere GB) runtergeladen. Bei den nächsten Durchläufen wird der lokale Cache genutzt.
Erstellen einer minimalen Chat-Schleife
Das Tutorial erweitert die Demo um ein paar Zeilen Code, um einen Nachrichtenverlauf zu speichern und iterative Antworten zu generieren – praktisch für die schnelle Prototypenerstellung von lokalen Chatbots ohne Web-UI oder Server-Stack.
Hinweise zur frühen Vorschau
Nutzer sehen möglicherweise eine Warnung, dass PyTorch nicht mit speichereffizienter Aufmerksamkeit kompiliert wurde. Diese Optimierung ist in dieser Windows-Vorschau nicht enthalten, sodass PyTorch auf den Standard-Aufmerksamkeitspfad zurückgreift. Die Warnung dient nur zur Information; die Inferenz funktioniert weiterhin.
Warum das für Windows-Entwickler wichtig ist
Die Vorschau schließt eine langjährige Lücke für die Windows-native KI-Entwicklung auf AMD-Hardware. Mit ROCm-basierten PyTorch-Wheels wird die lokale LLM-Inferenz auf Radeon- und Ryzen-KI-Systemen für Verbraucher zum Kinderspiel: Erstellen Sie eine venv, installieren Sie die Vorschau-Wheels und starten Sie das Programm. Für Entwickler, die bereits mit Hugging Face Transformers und Accelerate arbeiten, ist der Übergang minimal – doch der Pfad läuft jetzt nativ unter Windows mit AMD-Beschleunigung.