Notebooks & MIni-PCs Tech-Guide & Tipps Hardware

LLAMA.cpp auf MacBook Air & MacBook Pro mit M4/M5 mit GPU-Support kompilieren und lokale KI nutzen

13.03.2026, 16:31 Uhr , von Andreas Bunen

Bei dem Homebrew-Ansatz auf dem MacBook Air und MacBook Pro mit M4- und M5-Chip kann es Porbleme geben, da die Token-Generierung extrem langsam (0,1 Token/s) wird. Um volle Fähigkeiten (über 25 t/s) von llama.cpp zu nutzen, muss es mit passenden Flags kompiliert werden. Wir erklären, wie man das mit wenigen Schritten macht.

MacBook Air system profiler Bild © PCMasters.de MacBook Air system profiler (Bild © PCMasters.de)

Der erste Schritt bestand darin, zu überprüfen, ob das MacBook Metal unterstützt. Metal ist ein unverzichtbares Framework zur Leistungsoptimierung, weil es die GPU der M-Chips anspricht.

Durch Ausführen des Befehls system_profiler SPDisplaysDataType wird bestätigt, dass der Apple M4-Chipsatz Metal 3 unterstützt und die entscheidende Funktion zur Verbesserung der GPU-Berechnungen vorhanden ist. Die Ausgabe zeigte umfassende Details zu den Grafikfähigkeiten an, einschließlich der Gesamtzahl der Kerne und der unterstützten Anzeigetypen.

Als Nächstes muss die erforderlichen Build-Pakete mit Homebrew installiert werden. Brew ist ein beliebter Paketmanager auf macOS. Dazu gehörten die Installation von cmake, ninja und git, um sicherzustellen, dass alle Abhängigkeiten für den Build von llama.cpp erfüllt waren.

brew install cmake ninja git

llama cpp build (Bild © PCMasters.de)

Nachdem die ganzen Voraussetzungen zum Kompilieren der C-Bibliotheken erfüllt sind, wird das Repository llama.cpp mit den folgenden Befehlen von GitHub auf der lokalen Umgebung geklont:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

Das Projekt wird anschließend mit aktivierter Metal-Unterstützung über das Flag -DGGML_METAL=ON kompiliert, wobei CMake die passenden Compiler auf dem System aussuchen wird:

cmake -B build -G Ninja -DGGML_METAL=ON
cmake --build build --config Release -j 8

In dem gleichen Ordner kann man dann auch den LLAMA.cpp Server starten oder die CLI nutzen. Bei den Parametern kann man das Modell aber auch den Text angeben, abhängig davon, was man machen will:

./build/bin/llama-cli -m /Users/UserName/Downloads/Meta-Llama-3-8B-Instruct.Q5_K_S.gguf -p "Was ich die LLM fragen will, schreibe ich hier"

Mit diesem Vorgehen konnten wir llama.cpp bei dem größeren Meta-Llama-3-8B Modell beim Generieen von Token von 0,06 auf 13.7 t/s steigern. Bei M5-Macs sollten hier auch locker 30 t/s erreichbar sein. So entfesselt man das volle Potenzial des MacBook Air/Pro für die effiziente Generierung von Inhalten mit llama.cpp.

Andreas Bunen

Die IT-Welt bleibt nicht stehen und so gibt es jeden Tag viel zu lernen und zu verstehen. Zu meinen persönlichen Interessensfeldern zählt neben Technik auch Fotografie und Wissenschaft....

2038 Artikel E-Mail Twitter Google+

LLAMA.cpp auf MacBook Air & MacBook Pro mit M4/M5 mit GPU-Support kompilieren und lokale KI nutzen

Unterstütze PCMasters

LLAMA.cpp auf MacBook Air & MacBook Pro mit M4/M5 mit GPU-Support kompilieren und lokale KI nutzen weitere Downloads:

Andere Artikel aus dieser Kategorie

Unterstütze PCMasters

LLAMA.cpp auf MacBook Air & MacBook Pro mit M4/M5 mit GPU-Support kompilieren und lokale KI nutzen weitere Downloads:

Andere Artikel aus dieser Kategorie

Philips Evnia 27M2N3800A mit Dual-Mode-Technologie für 359 € vorgestellt

Fractal Epoch-Gehäuse mit Fokus auf Luftstrom und Design ab 114 €

Alienware AW2725D mit 280-Hz-QD-OLED und AW2525HM mit 320-Hz- IPS-Panel ab 249 € vorgestellt

HighPoint stellt PCIe Gen5 NVMe RAID-Lösungen für KI-Server und Medien-Workflows vor

G.SKILL zeigt 256-GB-DDR5-Speicherkits für AMD- und Intel-Plattformen