Günstigste KI Beschleuniger für lokale KI LLM Modelle (Bild © PCMasters.de)
Grafikkarten aus dem Gebrauchtmarkt-Pool
Wer nach Grafikkarten mit 16 und 32 GB sucht, findet bei eBay und AliExpress einige Modelle, auch wenn die Anzahl sehr stark begrenzt ist. Besonders auffällig sind hier für uns die folgenden gewesen, wobei die alle aus irgendwelchen Rechenzentren oder Farmen stammen und aufgearbeitet wurden. In den allermeisten Fällen ist das aber nicht wild, da sie auf Fehler geprüft werden und man bei eBay-Händlern diese sogar mit Versand nach China zurückgeben kann.
Radeon Instinct MI50
Die Karte gibt es seit 2018 und AMD hat Varianten mit 16 und 32 GB-Speicher angeboten. Wir haben mehrere der Karten gehabt und sie sind zu Beginn für 200 € erhältlich gewesen und die Preise steigen aber schnell an. Man kann sie nur noch schwer bekommen. Sie sind keinesfalls schlecht, aber etwas “schwierig” wenn es um ROCm-Support geht, da AMD sie aus den neuen Versionen gekickt hat und man Zeit investieren muss, um sie unter Linux richtig ins System zu bekommen und mit OLLAMA und LM Studio zu kombinieren. Sie fliegen auch noch nach dem Neustart aus dem System mal raus. Mit Vulkan-API kann man sie aber relativ einfach einbinden – wenn das System sie richtig bootet und erkennt. Besonders gut an diesen Vega20-Modellen ist, dass sie 32 GB HBM2-Speicher mit 4096-Bit Speicheranbindung haben und dieser ist extrem schnell!
Radeon Pro DUO
Diese Karte ist eher für Workstations und CAD-Umgebungen gebaut und hat auch einige Videoausgänge. Die Karten sind echt lang und bestehen aus zwei GPUs, die auf einem PCB sind. Das führt dazu, dass sie als zwei Radeon Pro WX 7100 erkannt werden und einzeln angesprochen werden. Wenn man also 3 der Karten im System hat, denkt das System, dass es 6 Karten sind. Das ist nicht wild, sollte aber bedacht werden. Bei dem VRAM bekommen wir aber 32GB (2x 16GB) GDDR5. Das ist langsamer als bei der MI50, aber uns geht es um die Menge und hier reißt sie viel raus. Die Lüfter sind auch nicht besonders laut. Auf dem Gebrauchtmarkt gehen sie für 300 bis 400 €, auch wenn der Startpreis bei 999 € lag.
TESLA V100
Hier wird es noch mal etwas wild, weil NVIDIA in der Generation eskaliert und die Beschleuniger als separate SXM-Module verkauft hat. Wenn wir also nach den Karten suchen, gibt es viele Module, die nicht nach Grafikkarte aussehen und noch Adapter und Kühler benötigen. Es gibt dann noch richtige Karten mit PCIe im Namen – diese sind die bessere Wahl.
Auch hier gilt: Die Karten kommen aus Server-Farmen, die auf neuere GPUs upgraden und eine Flut an Karten kommt auf den Gebrauchtmarkt. Diese Karten sind relativ modern, auch wenn es sie seit 2017 gibt. Der Vorteil ist hier, dass der Support von NVIDIA hier noch immer gut ist und mit CUDA nativ mehr erreicht werden kann. Die Karten haben ECC-Support, was die TITAN V und anderen Consumer-Karten nicht bieten.
Wir haben uns für das Experiment die V100 PCIe als 16 GB und dazu noch als 32 GB Variante aufgetrieben. Die beiden Modelle sind auch mit dem flotten HBM2-Speicher bestückt. Wer also auf Low-Budget geht, sollte die kleinere der beiden in größerer Stückzahl kaufen und als ein Pool betreiben. Das klappt wunderbar mit OLLAMA:
Die SXM2-Variante ist zwar mit allem bestückt, was wir brauchen, doch das PCB für die PCIe-Schnittstelle und die Stromzufuhr fehlen. In China gibt es die SXM2-to-PCIe-Konverter ab 50 €, aber die kompletten Kits mit Kühler, Wärmeleitpads und ggf. Lüfter kosten über 150 €. Das bedeutet aber, dass man die TESLA V100 SXM2 mit 32 GB erst erwerben muss. Als fertige Kits haben wir sie für 600 € angeboten bekommen, was noch immer etwas teuer erscheint.
Wir haben nach längerem Verhandeln dann beide getrennt bekommen und mussten die Sachen alle erst importieren. Das ist mit Risiko, Zeit und Kosten verbunden. Der eigentliche Zusammenbau war beim ersten Mal etwas "tricky", aber nicht zu schwer.
TITAN V
Wir haben die Titan V erst kürzlich getestet und sie gehört auch zum alten Grafikkarten von NVIDIA, die gerade vor allem durch das Design und den Preis spannend sind. Die Karte ist ansonsten sehr unkompliziert und ist auch mit einem passenden Lüfter bestückt, was die anderen Vertreter meist nicht haben. Leider hat sie “nur” 12 GB an HBM2-Speicher, weshalb wir eher zur V100 16 GB PCIe raten würden. Ansonsten wird sie von nvidia-smi erkannt und ist für CUDA in OLLAMA und LM Studio nutzbar. Im Verbund mit den Tesla V100 gab es erst Fehler, was dazu führte, dass die LLMs nur Unsinn ausgespuckt haben, den man nicht lesen konnte.
GeForce RTX 3090 oder RTX 5090?
Wenn man den Preis der Geforce RTX-Serien anschaut, ist die Integration der Grafikkarten alles andere als erschwinglich. Die GeForce RTX 5090 kostet 3.000 oder 4.000 € und hat auch nur 32 GB VRAM. Für den Preis kann man locker vier TITAN V100 kaufen. Die Rechenleistung ist nicht der Grund, der Speicherhunger der Modelle ist das größere Problem in diesem Kontext.
Springt man einige Serien zurück, gäbe es da noch die RTX 3090, die mit der RTX 3090 Ti oben an der Spitze der Serie steht. Die RTX 3090 Ti kostet weit über 1.200 € und die RTX 3090 kann man für ca. 900 € gebraucht kriegen. Dabei haben beide auch nur 24 GB GDDR6X (384bit, 21Gbps, 1313MHz, 1008GB/s). Das ist für diesen Zweck auch nicht gut, weil die TESLA V100 auch die bessere Wahl ist. Für Vergleichswerte haben wir dennoch unsere RTX 3090 FE in den Test aufgenommen. Hinzu kommt noch, dass die RTX 3090 und RTX 5090 auf einen 12V-2x6 PCIe-5.1-Stecker vom Netzteil wollen und auch noch riesig sind und damit 3-4 PCIe-Slots blockieren. Mehrere kann man platzsparend nicht einbauen.
Radeon RX 9000 und RX 7000 fallen weg
Für den Zweck eignen sich die Radeon RX 9070 (XT)-Grafikkarten weniger, weil sie nur 16 GB GDDR6 bieten. Hinzu kommt, dass man dann nur mit Vulkan arbeiten müsste, wofür sich die älteren Karten für weniger Geld besser eignen. Die riesigen Kühler sind für den Einsatz genauso ein Problem und es gibt kaum Gründe, warum man diese Karten nehmen würde. Dann wären da noch die Radeon RX 7900 XTX mit ihren 20 GB GDDR6-VRAM. Sie gibt es gebraucht für etwa 500 € und sie benötigen drei bis vier Stromstecker und eignen sich aus unserer Sicht auch nicht für das Szenario. Wir haben diese aus den besagten Gründen nicht im Test berücksichtigt.
On-Premises: Mittelgroße und große Modelle
Die meisten werden wohl mit einer Grafikkarte mit 16, 24 oder 32 GB an Grafikspeicher anfangen und dann jeweils eine weitere hinzufügen. Sinnvoll ist, dass die Modelle und der KV Cache im RAM der GPUs leben. Im Benchmarkbereich sieht man, wieso das so wichtig ist und wie groß der Unterschied ist. Für Firmen kann dieses Experiment auch von Interesse sein, vor allem, wenn man mit einem sehr begrenzten Budget auskommen muss und nicht eben Zehntausende Euro ausgeben kann. Wir haben mit Hinblick auf diese Tests auch eine Linux-Workstation aufgebaut, die drei Grafikkarten aufnehmen kann, auch wenn das gewählte Mainboard nicht unbedingt die beste Lösung ist.
Für unterschiedliche Zwecke gibt es jeweils das passende Modell, wobei wir uns eher auf Coding und Textgeneratoren konzentriert haben. Sparsame und effiziente Modelle sind zum aktuellen Zeitpunkt die folgenden:
| Modell | Ollama Tag | Parameter | Q4 VRAM | Q8 VRAM | Einsatzgebiet | Code | Reasoning |
|---|---|---|---|---|---|---|---|
| Qwen3 32B | qwen3:32b | 32B | ~19 GB | ~34 GB | General chat, rewrites | ⭐⭐ | ⭐⭐ |
| Qwen3.6 27B | qwen3.6:27b | 27B | ~17 GB | ~29 GB | Agentic coding | ⭐⭐⭐ | ⭐⭐ |
| Gemma4 31B | gemma4:31b | 31B | ~24 GB | ~34 GB | Math, vision, multimodal | ⭐⭐ | ⭐⭐⭐ |
| Llama 3.3 70B | llama3.3:70b-instruct-q4_K_M | 70B | ~43 GB | ~74 GB | General purpose | ⭐⭐ | ⭐⭐⭐ |
| Qwen2.5 72B | qwen2.5:72b-instruct-q4_K_M | 72B | ~43 GB | ~74 GB | Code, math, multilingual | ⭐⭐⭐ | ⭐⭐⭐ |
| Llama 3.1 405B | llama3.1:405b-q2_K | 405B | ~243 GB | N/A | Research quality | ⭐⭐ | ⭐⭐⭐ |
Für das Benchmark haben wir uns für die mittelgroßen Modelle Meta-Llama-3 8B (Instruct-Q5_K_S) und Gemma4:e4b 7.5B (Q8) entschieden. Sie laufen auf einer GPU aber auch über drei verteilt.
CUDA vs. VULKAN Benchmarks
Für die Tests haben wir unter Ubuntu 24.04 LTS LM Studio wegen seiner guten GUI genutzt. Dazu unterstützt es sowohl die Interfaces zum Deployen der LLMs auf CPU+RAM, oder auch mittels VULKAN, ROCm unddn CUDA 13 und 14. Dazu kann man im Dev-Modus auch die Token/s schnell auslesen und die GPUs einzeln dazu schalten oder abschalten. Die Modelle werden alle über HuggingFace oder OLLAMA bezogen, was eine große Vielfalt an Optionen gibt. Wer Lust hat, kann auch LM Studio inzwischen als Server für OpenWebUI nutzen, was wir aber nicht hierfür getan haben.
In dem Test haben wir das Modell mit einem CPU Kern und voller GPU-Zuweisung geladen und die gleiche Textaufgabe erteilt. Der Kontext ist bei 4048 belassen worden. Für tatsächliche Deployments sollte man 64k oder mehr berücksichtigen, da selbst 20k Kontext schnell erreicht sind. Man sollte den Speicherbedarf für den Kontext im KV Cache nicht unterschätzen. Jeder Chat erreicht sein Längenlimit wonach das Modell (bzw. OLLAMA) dann abbricht oder nur Blödsinn ausspuckt.
Nun kommen die Ergebnisse der Benchmarks auf den Beschleunigern und anschließende Einordnung.
Das LLAMA 3 8B-Modell ist recht kompakt mit seinen 5,6 GB. Dazu wird noch ein Kontextfenster zu berücksichtigen sein, aber so kann man in 12 oder 16 GB brauchbar etwas auslagern. Sobald das Modell im Speicher ist, wird die Anfrage von der LLM gelesen und bearbeitet. Die Generierung in “tokens per second” haben wir gemessen. Es spielt dabei bei der ersten Antwort keine große Rolle, wie lang die Antwort ist, auch wenn die Last auf der GPU hochgeht und besonders lange Antworten die GPU-Temperatur hochschnellen lassen und sie ggf. drosseln kann – daraus würde ein schlechterer Wert resultieren. Bei dem Datensatz ist das aber nicht der Fall.
Die erste Erkenntnis ist, dass die VULKAN-Integration nicht so effektiv ist bei NVIDIA GPUs, wie die native CUDA-API. Bei älteren Versionen lag die Leistung bei etwa 25% der mit CUDA erreichten Werten. Bei der neuen Implementierung ist viel passiert und so ist das nicht mehr zu wild, auch wenn wir alles aus der GPU quetschen wollen.
Die obersten beiden V100-Einträge beziehen sich auf einen Test der Leistungseinstellungen. NVIDIA bietet mit dem Tool “nvidia-settings” die Möglichkeit die Leistungsausrichtung anzupassen. Diese hatte aber kaum Einfluss auf die tatsächliche Leistung.
Gemma4 ist für uns aktuell das beste LLM-Modell. Es liefert erstaunlich gute Ergebnisse, selbst bei der der der 12-GB-8B-Variante (gemma4:e4b-it-q8_0). Die 8B-Q8-Variante nutzten wir in dem Benchmark und für den aktiven Betrieb setzen wir auf die 20 GB gemma4:31b Variante.
Beim Benchmark wird sichtbar, dass die Radeon Pro Duo nicht besonders stark ist, aber hier setzen wir auch nicht auf ROCM. Die CPU ist überraschend stark gewesen mit den vielen Kernen, aber dennoch langsam im Vergleich zu einer RTX 3090 oder Titan V. Die V100 geht in jeder Hinsicht als Sieger hervor.
Welche GPU soll ich für lokale LLMs nehmen?
Die einfachste Antwort ist eigentlich offensichtlich: Am besten eine GPU ab Baujahr 2018 mit mehr als 8 GB VRAM. Also eine Grafikkarte, die man herumliegen hat, um erste Erfahrungen zu sammeln.
Für Nutzer, die mehr wollen und ein Budget für das Vorhaben bereitgelegt haben, sieht es etwas anders aus. Natürlich kann man auch verfügbare GPUs zu einem Cluster zusammenstecken, aber im Idealfall sollten sie entweder von NVIDIA oder von AMD sein. Noch besser ist es, wenn es die gleiche Architektur ist, etwa exakt die gleichen Grafikkarten. Das erspart einem tatsächlich viele Probleme, denn man rennt andauernd in Edge-Cases mit Treibern und Kompatibilitätsproblemen. Wir haben zwar so einen Frankenstein über Monate lauffähig gehabt mit AMD- und NVIDIA-GPUs aber es hat extrem viel Zeit gebraucht, um sie in OLLAMA einzubrinden. An der Stelle muss man AMD echt loben, denn am Ende konnte immer VULKAN (Environment="OLLAMA_VULKAN=1") einem zur Rettung kann.
Low Budget Vorgehen
Wir würden zur Radeon PRO DUO raten, denn man bekommt für 200-300 € pro Karte absurd viel geboten. Wenn man zwei bis drei davon hat, kann man wirklich große Modelle laufen lassen oder kleinere mit größeren KV Cache. Sie sind mit VULKAN nicht die schnellsten, aber sind kühl und günstig. Dazu hat man weniger Kopfschmerzen mit Treibern.
Grafikkarten für 1.000 bis 2.000 € Setup
Die beste User Experience in den letzten 8 bis 12 Monaten hatten wir tatsächlich mit NVIDIA GPUs. Auch wenn NVIDIA sich nicht gerade beliebt macht in den letzten Jahren, die Integration bei den Server-Karten ist hervorragend - sogar für die Karten von 2018.
AMD lässt beim ROCM-Support schleifen und supportet Besitzer der Radeon Instinct Karten unzureichend, auch wenn VULKAN noch viel rettet. Für drei bis vier TESLA V100 Beschleuniger mit 16 oder gar 32 GB kann man schon flotte Cluster aufsetzen, die unserer Meinung nach brauchbar sind. Für drei TESLA V100 16 GB PCIe zahlt man demnach ca. 900 €. Wenn man drei TESLA V100 PCIe 32 GB nimmt, sind es ca. 1.900 €. Das ist natürlich nicht wenig Geld, aber wir sprechen hier von gebrauchten GPUs und der Neupreis ist exorbitant hoch. Das Schöne ist, dass man auch mit einer oder zwei Karten anfangen kann.
Für uns geht die Reise weiter, weil es weiter optimiert wird. Wenn du mehr von solchen Artikeln möchtest, schick uns gerne eine Mail :)








