Intel LLM Scaler 1.0 für Arc Pro steigert Leistung der Project Battlematrix-Inferenz-Workstations

Intel hat LLM Scaler v1.0 veröffentlicht, das als erstes großes Softwarepaket für das Project Battlematrix angeboten wird. Es fungiert als Multi-GPU-Inferenzplattform, die auf Arc Pro-Beschleunigern basiert. Battlematrix wurde auf der Computex 2025 als konsolidierter Stack für lokale LLM-Dienste angekündigt und ist für Linux-Workstations gedacht, die sich über mehrere Arc Pro-GPUs skalieren lassen und dabei die Verwaltbarkeit eines Rechenzentrums beibehalten.

Intel LLM Scaler 1.0 für Arc Pro (Bild © Intel)

Neu im LLM Scaler v1.0

Die erste Version kommt als containerisierter Stack, der die Bereitstellung standardisiert und eine breite Palette an Optimierungen für vLLM, Intels Inferenzserver mit hohem Durchsatz, bietet:

Durchsatz bei langen Kontexten: Gezielte TPOP-Verbesserungen steigern die Leistung bei einer Sequenzlänge von 40K auf 32B KPI-Modellen um das 1,8-fache und bei 40K auf 70B KPI-Modellen um das 4,2-fache.
Allgemeiner Durchsatz: Etwa 10 % mehr Output-Token für 8B–32B KPI-Modelle im Vergleich zum vorherigen Rückgang.
Speichereffizienz: By-Layer-Online-Quantisierung reduziert die Working-Set-Größe, um größere Modelle oder längere Kontexte pro GPU zu ermöglichen.
Parallelität und Kernel (experimentell): Pipeline-Parallelität, torch.compile und spekulative Decodierung stehen für erste Tests zur Verfügung.
Modellabdeckung: Integrierte Unterstützung für Embedding- und Re-Rank-Modelle, verbesserte multimodale Verarbeitung, automatische Erkennung der maximalen Länge und Datenparallelität erweitern die Anwendungsfälle und vereinfachen die Konfiguration.

Über vLLM hinaus ermöglicht der Container OneCCL-Benchmarking und integriert XPU Manager-Steuerelemente für Leistung, Firmware-Updates, Diagnose und Speicherbandbreitenüberwachung.

Intel positioniert LLM Scaler v1.0 als einen „Inference Optimized”-Container, der bei der Skalierung über mehrere Arc Pro-GPUs mit aktivierten PCIe-Peer-to-Peer-Übertragungen eine bis zu 80 % höhere Leistung liefern kann. Der Stack ist für Linux optimiert, wobei der Schwerpunkt auf einem konsistenten Durchsatz unter langen Kontextfenstern und Multi-GPU-Orchestrierung liegt.

Gemäß der Roadmap von Intel wird dieser v1.0-Release später im 3. Quartal durch einen gehärteten Container mit weiteren Leistungsverbesserungen und verbessertem vLLM-Service ergänzt. Ein Release mit vollem Funktionsumfang ist für das 4. Quartal geplant und rundet das erste Jahr von Project Battlematrix mit Arc Pro ab.

Intel LLM Scaler 1.0 für Arc Pro steigert Leistung der Project Battlematrix-Inferenz-Workstations

Neu im LLM Scaler v1.0

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Neu im LLM Scaler v1.0

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

NVIDIA Blackwell-GPUs mit 192 GB HBM3e-Speicher für KI-Beschleunigung

NVIDIA Blackwell-Generation wird mit Lieferengpaässen erwartet

Xeon W9-3975X 44-Kerner und weitere W2500-Modelle geleakt

Xeon W9-3595X 60-Kern-CPU-Benchmarks geleakt

Granite Rapids bekommen massiven 480 MB großen L3-Cache