Claude Code installieren  Bild © AnthropicClaude Code installieren (Bild © Anthropic)

Mindestanforderungen an die Hardware für lokale LLM

Für eine realistische Programmier-Erfahrung mit einem lokal gehosteten Modell sind mindestens 32 GB RAM erforderlich, entweder Apple Silicon Unified Memory oder herkömmlicher PC-RAM. Modelle sollten mit etwa 24B-Parametern beginnen, denn kleinere Modelle mit 16 GB neigen dazu, häufige Fehler zu produzieren und die Durchlaufzeit zu verlängern.

Empfohlene LLM-Modelle

Model Parameter Vorzüge
devstral‑small‑2 24B Solide Coding Leistung/Skills
qwen3‑coder 30B Bessere Coding Sills, passt in etwa in 32 GB
glm-4.7-flash:latest 30B (quantized) Geringe Latence und brauchbar

Warum über die API von Anthropic hinausschauen?

Wenn man Claude Code mit dem offiziellen Opus 4.5-Endpunkt ausführt, verbraucht das schnell Credits. Dienste von Drittanbietern, die das Anthropic-API-Format nachahmen, können die Token-Kosten um bis zu 98 % senken. DeepSeek V3.2 kostet zum Beispiel etwa 0,28 $ pro Million Token, während lokale Ollama-Implementierungen keine Nutzungsgebühren verursachen. Die Abonnementstufen beginnen bei 3$ pro Monat für Zhipu GLM und 10$ pro Monat für MiniMax, was Teams eine vorhersehbare Budgetierung ermöglicht. Cusror ist auch nicht günstig und man muss recht schnell mehr Geld einwerfen, wenn man weiter mit Opus 4.5 arbeiten will. Es gibt aber Alternativen.

Ollama installieren und ausführenOllama installieren und ausführen (Bild © PCMasters.de)

Option 1 – Ollama (lokal)

Wir haben einen ausführlichen Guide für Ollama lokale Installation.

  • Einrichtungszeit: Leicht in unter etwa 5-10 Minuten
  • Kosten: kostenlos, Open Source
  • Am besten geeignet für: vollständige Privatsphäre, Offline-Arbeit

Installation

curl -fsSL https://ollama.com/install.sh | sh
export OLLAMA_VULKAN=1
export OLLAMA_HOST=http://0.0.0.0:11434

Ollama Modell installierenOllama Modell installieren (Bild © PCMasters.de)

Ollama lokalOllama lokal (Bild © PCMasters.de)

Modell-Download

ollama pull glm-4.7-flash:latest
ollama serve

Claude Code verbinden (Umgebungsvariablen)

export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_BASE_URL="http://0.0.0.0:11434"

Ausführen:

claude --model glm-4.7-flash

Option 2 – llama.cpp + HuggingFace

  • Einrichtungszeit: Dauert länger, etwa 15–20 Minuten
  • Kosten: Kostenlos, Open Source
  • Am besten geeignet für: Zugriff auf jedes HuggingFace-Modell, auch wenn das mit OLLAMA auch geht

Erstellen von llama.cpp

  • macOS (Metal): cmake -DGGML_METAL=ON …
  • Linux (CUDA): cmake -DGGML_CUDA=ON …

Starten des Servers (Beispiel mit qwen3 coder)

llama-server -hf bartowski/cerebras_Qwen3-Coder-REAP-25B-A3B-GGUF:Q4_K_M \
--alias „Qwen3-Coder-REAP-25B-A3B-GGUF“ --port 8000 \
--jinja --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 \
--flash-attn on --batch-size 4096 --ubatch-size 1024 \
--ctx-size 64000

Link Claude Code

export ANTHROPIC_BASE_URL="http://localhost:8000"
claude --model Qwen3-Coder-REAP-25B-A3B-GGUF

LM Studio WindowsLM Studio Windows (Bild © PCMasters)

Option 3 – LM Studio

LM Studio gibt es auch für alle möglichen Systeme und auch mit einer eigenen GUI.

  • Einrichtungszeit: Sehr easy, in unter 5 Minuten
  • Kosten: Kostenlos
  • Am besten geeignet für: GUI-gesteuerte Modellauswahl, Datenschutz

Lade den Desktop-Client von lmstudio.ai herunter oder installiere die CLI mit:

curl -fsSL https://lmstudio.ai/install.sh | bash

Wähle ein Modell über die Benutzeroberfläche aus oder führe lms chat → /download in der CLI aus. Starte den lokalen Server auf Port 1234:

lms server start -port 1234

Konfiguriere Claude Code:

export ANTHROPIC_BASE_URL="http://localhost:1234"
export ANTHROPIC_AUTH_TOKEN="lmstudio"
claude --model qwen/qwen3-coder-30b

Option 4 – Cloud-Anbieter-APIs

Für Teams, die eine detaillierte Kontrolle benötigen, setze die folgenden Umgebungsvariablen (oder bearbeite ~/.claude/settings.json).

OpenRouter (universeller Adapter)

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="YOUR_OPENROUTER_KEY"
export ANTHROPIC_MODEL="openai/gpt-oss-120b:free"

MiniMax (kostengünstig und hochwertig)

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="YOUR_MINIMAX_KEY"
export ANTHROPIC_MODEL="MiniMax-M2.1"

Ähnliche Blöcke funktionieren für GLM, DeepSeek, Kimi und andere Anbieter, nur die Basis-URL, das Authentifizierungstoken und der Modellname ändern sich.

Claude Code in a Nut Shell

Der Editor ist jetzt ein vielseitiges Frontend, das auf lokale Modelle, von der Community gehostete Server oder kommerzielle Cloud-APIs zugreifen kann. Nutzer mit einem 32-GB-Mac können mit devstral-small-2 eine ordentliche Leistung erzielen, während GPU-reiche Umgebungen wie Nvidia DGX Spark das volle Potenzial größerer Modelle mit mehr als 30 B ausschöpfen. Für datenschutzkritische Workloads bieten Ollama und LM Studio Offline-Lösungen; für Geschwindigkeit und Skalierbarkeit liefern Cloud-Optionen wie Ollama Cloud, MiniMax oder OpenRouter hochwertige Ergebnisse zu einem Bruchteil des Preises von Anthropic.