LLMs lokal mit PyTorch auf Windows: ROCm 6.4.4 auf Radeon RX 7000/9000 und Ryzen AI

AMD hat eine öffentliche Vorschau von PyTorch auf Windows mit ROCm-Beschleunigung veröffentlicht, mit der Entwickler moderne große Sprachmodelle lokal auf Radeon RX 7000- und RX 9000-GPUs sowie ausgewählten Ryzen AI 300- und AI Max-APUs ausführen können. Die Veröffentlichung richtet sich an Windows-orientierte Entwickler, die GPU-beschleunigte Inferenz wünschen, ohne zu Linux wechseln oder mit Workarounds jonglieren zu müssen.

AMD ROCm 6.0 Release Bild © AMD AMD ROCm 6.0 Release (Bild © AMD)

Die Windows-Builds bieten native PyTorch-Unterstützung für AMD-Hardware, sodass beliebte Open-Source-Modellstacks direkt auf Radeon- oder Ryzen AI-Geräten ausgeführt werden können. In der Praxis bedeutet das, dass Entwickler Transformers-basierte Pipelines erstellen, LLM-Inferenz testen und Prototypen von Apps auf Standard-Windows 11-Desktops oder -Workstations erstellen können.

Unterstützte Plattformen

GPUs: Radeon RX 7900 XTX / XT / GRE, RX 9070 XT / 9070 / 9070 GRE, RX 9060 XT, Radeon AI PRO R9700, Radeon PRO W7900 (inkl. Dual-Slot).
APUs: Ryzen AI Max+ 395, AI Max 390/385, Ryzen AI 9 HX 375 / HX 370 / 365.
Betriebssystem: Windows 11
Treiber: AMD PyTorch auf Windows Preview Edition 25.20.01.14
Python: 3.12 (während der Installation zum PATH hinzufügen)

Erste Schritte: der kurze Weg

Die Vorschau wird als Wheel-Builds bereitgestellt, die im Repository von AMD gehostet werden. Bei einer typischen Einrichtung wird eine virtuelle Umgebung genutzt und Folgendes installiert:

pip install --no-cache-dir \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torch-2.8.0a0%2Bgitfc14c65-cp312-cp312-win_amd64.whl \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torchaudio-2.6.0a0%2B1a8f621-cp312-cp312-win_amd64.whl \
https://repo.radeon.com/rocm/windows/rocm-rel-6.4.4/torchvision-0.24.0a0%2Bc85f008-cp312-cp312-win_amd64.whl 

pip install transformers accelerate

Der Leitfaden empfiehlt, zuerst eine Projekt-venv zu erstellen:

python -m venv llm-pyt
llm-pyt\Scripts\activate

Erster Lauf: Llama 3.2 1B auf Radeon

Wenn die Umgebung aktiv ist, zieht eine Beispiel-Transformers-Pipeline unsloth/Llama-3.2-1B-Instruct und führt eine Eingabeaufforderung mit halber Genauigkeit auf der Grafikkarte aus:

# python
import torch
from transformers import pipeline

model_id = „unsloth/Llama-3.2-1B-Instruct“
pipe = pipeline(
„text-generation“,
model=model_id,
dtype=torch.float16,
device_map="auto"
)

print(pipe(„Der Schlüssel zum Leben ist“))

Bei der ersten Ausführung werden die Modellgewichte (mehrere GB) runtergeladen. Bei den nächsten Durchläufen wird der lokale Cache genutzt.

Erstellen einer minimalen Chat-Schleife

Das Tutorial erweitert die Demo um ein paar Zeilen Code, um einen Nachrichtenverlauf zu speichern und iterative Antworten zu generieren – praktisch für die schnelle Prototypenerstellung von lokalen Chatbots ohne Web-UI oder Server-Stack.

Hinweise zur frühen Vorschau

Nutzer sehen möglicherweise eine Warnung, dass PyTorch nicht mit speichereffizienter Aufmerksamkeit kompiliert wurde. Diese Optimierung ist in dieser Windows-Vorschau nicht enthalten, sodass PyTorch auf den Standard-Aufmerksamkeitspfad zurückgreift. Die Warnung dient nur zur Information; die Inferenz funktioniert weiterhin.

Warum das für Windows-Entwickler wichtig ist

Die Vorschau schließt eine langjährige Lücke für die Windows-native KI-Entwicklung auf AMD-Hardware. Mit ROCm-basierten PyTorch-Wheels wird die lokale LLM-Inferenz auf Radeon- und Ryzen-KI-Systemen für Verbraucher zum Kinderspiel: Erstellen Sie eine venv, installieren Sie die Vorschau-Wheels und starten Sie das Programm. Für Entwickler, die bereits mit Hugging Face Transformers und Accelerate arbeiten, ist der Übergang minimal – doch der Pfad läuft jetzt nativ unter Windows mit AMD-Beschleunigung.

Quelle: AMD

LLMs lokal mit PyTorch auf Windows: ROCm 6.4.4 auf Radeon RX 7000/9000 und Ryzen AI

Unterstützte Plattformen

Erste Schritte: der kurze Weg

Erster Lauf: Llama 3.2 1B auf Radeon

Erstellen einer minimalen Chat-Schleife

Hinweise zur frühen Vorschau

Warum das für Windows-Entwickler wichtig ist

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Unterstützte Plattformen

Erste Schritte: der kurze Weg

Erster Lauf: Llama 3.2 1B auf Radeon

Erstellen einer minimalen Chat-Schleife

Hinweise zur frühen Vorschau

Warum das für Windows-Entwickler wichtig ist

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Core Ultra 200: Wie Intel Arrow Lake Spiele-Leistungsprobleme beheben will

Ryzen AI MAX 300 „Strix Halo“-Prozessoren sollen Apple M3 Pro und M3 Max Konkurrenz machen

POCO C75: Viel Leistung für wenig Geld

AMD Ryzen 9 9950X3D: 16-Kern-CPU mit 3D-V-Cache bietet große Leistungssteigerungen

Was ist Rapid Trigger und wie verbessert es deine Spielleistung?