News Tech-Guide & Tipps

Claude Code installieren: Anleitung für lokale und Cloud-basierten KI-Agenten

10.02.2026, 23:00 Uhr , von Andreas Bunen

Für Entwickler, die sich bei der Programmierung mit Claude Code verlassen, mussten sich lange mit einem komplizierten Einrichtungsprozess herumschlagen, der von der offiziellen API von Anthropic abhängig war. Claude Code bietet eine Schnittstelle mit einer Vielzahl von Backends von Drittanbietern. Man kann lokale Agenten oder auch andere dafür nutzen.

Claude Code installieren Bild © Anthropic Claude Code installieren (Bild © Anthropic)

Mindestanforderungen an die Hardware für lokale LLM

Für eine realistische Programmier-Erfahrung mit einem lokal gehosteten Modell sind mindestens 32 GB RAM erforderlich, entweder Apple Silicon Unified Memory oder herkömmlicher PC-RAM. Modelle sollten mit etwa 24B-Parametern beginnen, denn kleinere Modelle mit 16 GB neigen dazu, häufige Fehler zu produzieren und die Durchlaufzeit zu verlängern.

Empfohlene LLM-Modelle

Model	Parameter	Vorzüge
devstral‑small‑2	24B	Solide Coding Leistung/Skills
qwen3‑coder	30B	Bessere Coding Sills, passt in etwa in 32 GB
glm-4.7-flash:latest	30B (quantized)	Geringe Latence und brauchbar

Warum über die API von Anthropic hinausschauen?

Wenn man Claude Code mit dem offiziellen Opus 4.5-Endpunkt ausführt, verbraucht das schnell Credits. Dienste von Drittanbietern, die das Anthropic-API-Format nachahmen, können die Token-Kosten um bis zu 98 % senken. DeepSeek V3.2 kostet zum Beispiel etwa 0,28 $ pro Million Token, während lokale Ollama-Implementierungen keine Nutzungsgebühren verursachen. Die Abonnementstufen beginnen bei 3$ pro Monat für Zhipu GLM und 10$ pro Monat für MiniMax, was Teams eine vorhersehbare Budgetierung ermöglicht. Cusror ist auch nicht günstig und man muss recht schnell mehr Geld einwerfen, wenn man weiter mit Opus 4.5 arbeiten will. Es gibt aber Alternativen.

Ollama installieren und ausführen (Bild © PCMasters.de)

Option 1 – Ollama (lokal)

Wir haben einen ausführlichen Guide für Ollama lokale Installation.

Einrichtungszeit: Leicht in unter etwa 5-10 Minuten
Kosten: kostenlos, Open Source
Am besten geeignet für: vollständige Privatsphäre, Offline-Arbeit

Installation

curl -fsSL https://ollama.com/install.sh | sh
export OLLAMA_VULKAN=1
export OLLAMA_HOST=http://0.0.0.0:11434

Ollama Modell installieren (Bild © PCMasters.de)

Ollama lokal (Bild © PCMasters.de)

Modell-Download

ollama pull glm-4.7-flash:latest
ollama serve

Claude Code verbinden (Umgebungsvariablen)

export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_BASE_URL="http://0.0.0.0:11434"

Ausführen:

claude --model glm-4.7-flash

Option 2 – llama.cpp + HuggingFace

Einrichtungszeit: Dauert länger, etwa 15–20 Minuten
Kosten: Kostenlos, Open Source
Am besten geeignet für: Zugriff auf jedes HuggingFace-Modell, auch wenn das mit OLLAMA auch geht

Erstellen von llama.cpp

macOS (Metal): cmake -DGGML_METAL=ON …
Linux (CUDA): cmake -DGGML_CUDA=ON …

Starten des Servers (Beispiel mit qwen3 coder)

llama-server -hf bartowski/cerebras_Qwen3-Coder-REAP-25B-A3B-GGUF:Q4_K_M \
--alias „Qwen3-Coder-REAP-25B-A3B-GGUF“ --port 8000 \
--jinja --kv-unified --cache-type-k q8_0 --cache-type-v q8_0 \
--flash-attn on --batch-size 4096 --ubatch-size 1024 \
--ctx-size 64000

Link Claude Code

export ANTHROPIC_BASE_URL="http://localhost:8000"
claude --model Qwen3-Coder-REAP-25B-A3B-GGUF

LM Studio Windows (Bild © PCMasters)

Option 3 – LM Studio

LM Studio gibt es auch für alle möglichen Systeme und auch mit einer eigenen GUI.

Einrichtungszeit: Sehr easy, in unter 5 Minuten
Kosten: Kostenlos
Am besten geeignet für: GUI-gesteuerte Modellauswahl, Datenschutz

Lade den Desktop-Client von lmstudio.ai herunter oder installiere die CLI mit:

curl -fsSL https://lmstudio.ai/install.sh | bash

Wähle ein Modell über die Benutzeroberfläche aus oder führe lms chat → /download in der CLI aus. Starte den lokalen Server auf Port 1234:

lms server start -port 1234

Konfiguriere Claude Code:

export ANTHROPIC_BASE_URL="http://localhost:1234"
export ANTHROPIC_AUTH_TOKEN="lmstudio"
claude --model qwen/qwen3-coder-30b

Option 4 – Cloud-Anbieter-APIs

Für Teams, die eine detaillierte Kontrolle benötigen, setze die folgenden Umgebungsvariablen (oder bearbeite ~/.claude/settings.json).

OpenRouter (universeller Adapter)

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="YOUR_OPENROUTER_KEY"
export ANTHROPIC_MODEL="openai/gpt-oss-120b:free"

MiniMax (kostengünstig und hochwertig)

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="YOUR_MINIMAX_KEY"
export ANTHROPIC_MODEL="MiniMax-M2.1"

Ähnliche Blöcke funktionieren für GLM, DeepSeek, Kimi und andere Anbieter, nur die Basis-URL, das Authentifizierungstoken und der Modellname ändern sich.

Claude Code in a Nut Shell

Der Editor ist jetzt ein vielseitiges Frontend, das auf lokale Modelle, von der Community gehostete Server oder kommerzielle Cloud-APIs zugreifen kann. Nutzer mit einem 32-GB-Mac können mit devstral-small-2 eine ordentliche Leistung erzielen, während GPU-reiche Umgebungen wie Nvidia DGX Spark das volle Potenzial größerer Modelle mit mehr als 30 B ausschöpfen. Für datenschutzkritische Workloads bieten Ollama und LM Studio Offline-Lösungen; für Geschwindigkeit und Skalierbarkeit liefern Cloud-Optionen wie Ollama Cloud, MiniMax oder OpenRouter hochwertige Ergebnisse zu einem Bruchteil des Preises von Anthropic.

TIPP DES TAGES

Andreas Bunen

Die IT-Welt bleibt nicht stehen und so gibt es jeden Tag viel zu lernen und zu verstehen. Zu meinen persönlichen Interessensfeldern zählt neben Technik auch Fotografie und Wissenschaft....

1998 Artikel E-Mail Twitter Google+