AMD ROCm 6.0 Release  Bild © AMDAMD ROCm 6.0 Release (Bild © AMD)

Die Windows-Builds bieten native PyTorch-Unterstützung für AMD-Hardware, sodass beliebte Open-Source-Modellstacks direkt auf Radeon- oder Ryzen AI-Geräten ausgeführt werden können. In der Praxis bedeutet das, dass Entwickler Transformers-basierte Pipelines erstellen, LLM-Inferenz testen und Prototypen von Apps auf Standard-Windows 11-Desktops oder -Workstations erstellen können.

Unterstützte Plattformen

Erste Schritte: der kurze Weg

Die Vorschau wird als Wheel-Builds bereitgestellt, die im Repository von AMD gehostet werden. Bei einer typischen Einrichtung wird eine virtuelle Umgebung genutzt und Folgendes installiert:

pip install --no-cache-dir \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torch-2.8.0a0%2Bgitfc14c65-cp312-cp312-win_amd64.whl \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torchaudio-2.6.0a0%2B1a8f621-cp312-cp312-win_amd64.whl \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torchvision-0.24.0a0%2Bc85f008-cp312-cp312-win_amd64.whl 

pip install transformers accelerate

Der Leitfaden empfiehlt, zuerst eine Projekt-venv zu erstellen:

python -m venv llm-pyt
llm-pyt\Scripts\activate

Erster Lauf: Llama 3.2 1B auf Radeon

Wenn die Umgebung aktiv ist, zieht eine Beispiel-Transformers-Pipeline unsloth/Llama-3.2-1B-Instruct und führt eine Eingabeaufforderung mit halber Genauigkeit auf der Grafikkarte aus:

# python
import torch
from transformers import pipeline

model_id = „unsloth/Llama-3.2-1B-Instruct“
pipe = pipeline(
„text-generation“,
model=model_id,
dtype=torch.float16,
device_map="auto"
)

print(pipe(„Der Schlüssel zum Leben ist“))

Bei der ersten Ausführung werden die Modellgewichte (mehrere GB) runtergeladen. Bei den nächsten Durchläufen wird der lokale Cache genutzt.

Erstellen einer minimalen Chat-Schleife

Das Tutorial erweitert die Demo um ein paar Zeilen Code, um einen Nachrichtenverlauf zu speichern und iterative Antworten zu generieren – praktisch für die schnelle Prototypenerstellung von lokalen Chatbots ohne Web-UI oder Server-Stack.

Hinweise zur frühen Vorschau

Nutzer sehen möglicherweise eine Warnung, dass PyTorch nicht mit speichereffizienter Aufmerksamkeit kompiliert wurde. Diese Optimierung ist in dieser Windows-Vorschau nicht enthalten, sodass PyTorch auf den Standard-Aufmerksamkeitspfad zurückgreift. Die Warnung dient nur zur Information; die Inferenz funktioniert weiterhin.

Warum das für Windows-Entwickler wichtig ist

Die Vorschau schließt eine langjährige Lücke für die Windows-native KI-Entwicklung auf AMD-Hardware. Mit ROCm-basierten PyTorch-Wheels wird die lokale LLM-Inferenz auf Radeon- und Ryzen-KI-Systemen für Verbraucher zum Kinderspiel: Erstellen Sie eine venv, installieren Sie die Vorschau-Wheels und starten Sie das Programm. Für Entwickler, die bereits mit Hugging Face Transformers und Accelerate arbeiten, ist der Übergang minimal – doch der Pfad läuft jetzt nativ unter Windows mit AMD-Beschleunigung.