OpenAI GPT-OSS-Modelle lokal auf GeForce RTX-Grafikkarten laufen schnell

OpenAI hat offiziell zwei neue große Open-Source-KI-Modelle veröffentlicht: gpt-oss-20b und gpt-oss-120b. Diese sind zusammen mit NVIDIA entwickelt worden und für schnelle lokale Inferenz auf NVIDIA RTX-GPUs optimiert. Diese Modelle stehen jetzt Entwicklern und Fans zur Verfügung, die topmoderne agentenbasierte KI-Workloads direkt auf ihren PCs oder Workstations ausführen wollen.

OpenAI GPT OSS Modelle lokal auf GeForce RTX Grafikkarten laufen schnell (Bild © NVIDIA, OpenAI)

Die neuen Modelle wurden mit einer Mixture-of-Experts-Architektur entwickelt und unterstützen komplexe Denkaufgaben, darunter Befehlsausführung, Tool-Nutzung und Kettengedanken-Problemlösung. Mit einer Kontextlänge von bis zu 131.072 Tokens setzt die gpt-oss-Familie auf Flexibilität lokaler Inferenz und eignet sich ideal für Anwendungen wie Websuche, Dokumentenanalyse und tiefgehende Forschung.

Die Modelle wurden auf NVIDIA H100-GPUs trainiert und nutzen das MXFP4-Format, das im Vergleich zu herkömmlichen FP16- oder INT-Formaten eine schnellere Inferenz mit weniger Hardware-Overhead ermöglicht. Die Leistung auf High-End-Consumer-Hardware ist bereits gut, denn bis zu 256 Token pro Sekunde sind auf einer GeForce RTX 5090 (Test) möglich, was Echtzeit-KI-Interaktion auf lokalen Systemen ermöglicht.

OpenAI GPT OSS Modelle auf RTX Grafikkarten (Bild © NVIDIA, OpenAI)

Nahtlose Integration mit Ollama und RTX-Hardware

Benutzer können schnell mit der Ollama-Plattform loslegen, die jetzt die Open-Weight-Modelle von OpenAI vollständig unterstützt. Ollama läuft auf RTX-GPUs mit mindestens 24 GB VRAM, erfordert keine manuelle Optimierung und bietet eine optimierte Benutzererfahrung mit einer einfachen Benutzeroberfläche und sofortigem Modellzugriff. Zu den Funktionen gehören:

PDF- und Klartext-Import direkt in Chats.
Multimodale Unterstützung für Eingabeaufforderungen einschließlich Bildern (auf kompatiblen Modellen).
Benutzerdefinierte Kontextlängen für große Dokumente oder längere Sitzungen.

Ollama bietet auch Befehlszeilentools und ein SDK für Entwickler, die lokale KI in ihre Anwendungen integrieren möchten.

OpenAI GPT OSS Modelle (Bild © NVIDIA, OpenAI)

Unterstützung des Ökosystems: llama.cpp, GGML und Microsoft Foundry Local

Über Ollama hinaus verbessert NVIDIA weiterhin die Kompatibilität mit Open-Source-KI. Das Unternehmen leistet einen aktiven Beitrag zu llama.cpp und der GGML-Tensor-Bibliothek, optimiert die GPU-Ausführung mit CUDA Graphs und reduziert den CPU-Overhead.

Für Windows-Entwickler bietet Microsoft AI Foundry Local eine weitere Möglichkeit, die gpt-oss-Modelle auf dem Gerät auszuführen. Dieses Framework, das sich derzeit in der öffentlichen Vorschau befindet, unterstützt die Integration über CLI, SDKs oder APIs und wird von ONNX Runtime mit TensorRT-Unterstützung in der Pipeline unterstützt. RTX-Nutzer können mit einem einfachen Terminalbefehl loslegen:

foundry model run gpt-oss-20b

Da sich die KI-Landschaft in Richtung lokaler Inferenz verschiebt, ist diese Zusammenarbeit zwischen NVIDIA und OpenAI ein guter Schritt in die richtige Richtung.

Die Modelle sind auch auf Huggingface zu finden:

Quelle: Nvidia

OpenAI GPT-OSS-Modelle lokal auf GeForce RTX-Grafikkarten laufen schnell

Nahtlose Integration mit Ollama und RTX-Hardware

Unterstützung des Ökosystems: llama.cpp, GGML und Microsoft Foundry Local

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Nahtlose Integration mit Ollama und RTX-Hardware

Unterstützung des Ökosystems: llama.cpp, GGML und Microsoft Foundry Local

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Intel Z890-Motherboards werden mit Thunderbolt 4 erscheinen

NVIDIA GeForce RTX 5090 Release 2024, weitere Modelle erst 2025

Logitech PRO X LIGHTSPEED im Test/Review

Corsair 6500X PC-Gehäuse im Test/Review

Core Ultra 200 Release-Datum: Launch der Arrow Lake-S-Plattform in Q3 2024