NVIDIA und Langflow: Ollama für private RTX-Workflows, MCP zu RTX Remix und G-Assist-Steuerungen

Generative KI breitet sich immer weiter über Entwicklerkreise hinaus aus, da die Tools visuelle Low-Code-Schnittstellen und On-Device-Beschleunigung einsetzen. Langflow ist einen Canvas-basierten Builder für KI-Agenten, der jetzt Ollama integriert, um Modelle lokal auf NVIDIA GeForce RTX und RTX PRO GPUs auszuführen. Das Ergebnis sind durchgängige, private KI-Workflows, die ohne API-Schlüssel, Abo-Gebühren oder Internetverbindung funktionieren.

NVIDIA und Langflow Bild © NVIDIA und Langflow NVIDIA und Langflow (Bild © NVIDIA und Langflow)

Lokale Agenten, visuell erstellt

Mit den Drag-and-Drop-Knoten von Langflow können Nutzer und Profis Agentenpipelines ohne Skripterstellung zusammenstellen: LLMs, Werkzeuge, Speicher, Controller. Mit dem Ollama-Knoten können dieselben Vorlagen, die standardmäßig für Cloud-Endpunkte verwendet werden, in wenigen Minuten auf lokale Inferenz auf RTX umgestellt werden:

1. Installiere Langflow (Windows-Desktop).
1. Installiere Ollama und starte es, dann ziehe ein Modell (z.B. Llama 3.1 8B, Qwen3 4B) für einen ersten Workflow.
1. Öffne einen Langflow-Starter (Reisebüro, Einkaufsassistent, etc.).
1. Ersetze den LLM-Endpunkt durch den Ollama-Knoten und verbinde die Modelleingabe des Agenten mit der Ollama-Ausgabe.
1. Erweitere sie nach Bedarf mit Systembefehlen, lokaler Dateisuche, strukturierten Ausgaben oder eigenen Tools.

Durch die lokale Ausführung wird der Datenschutz gewahrt, es fallen keine Token-Kosten an, die Latenz/Durchsatzrate wird durch die RTX-Beschleunigung verbessert (nützlich bei langen Kontextfenstern) und es funktioniert offline- eine praktische Kombination für persönliche Wissensassistenten und Desktop-Automatisierungen.

Langflow Agenten (Bild © NVIDIA und Langflow)

RTX Remix erhält MCP-Unterstützung für agentengesteuertes Modding

RTX Remix- das Open-Source-Toolkit für Raytracing-Remaster - unterstützt jetzt das Model Context Protocol (MCP) über Langflow-Knoten. MCP bietet Agenten eine standardisierte Schnittstelle zu Dokumentation und Funktionen. Die Remix Langflow-Vorlage enthält:

RAG over RTX Remix-Dokumentation für kontextbezogene Fragen und Antworten,
Echtzeit-Doku-Zugriff für Disambiguierung und Anleitung,
MCP-Aktionen, die Remix-Funktionen ausführen können - Ersetzen von Assets, Bearbeiten von Metadaten, automatisierte Mod-Schritte.

Agenten können entscheiden, wann sie mit einer Anleitung antworten oder direkt handeln. Ein typischer Ablauf: Analyse einer Benutzeranfrage („Ersetze eine niedrig aufgelöste Textur“), Überprüfung des Projekts, Auswahl eines geeigneten Assets und Aktualisierung von Remix über MCP - so werden die manuellen Schritte für Modder minimiert.

Langflow Workflow (Bild © NVIDIA und Langflow)

Project G-Assist wird ein Baustein in Langflow

Project G-Assist, NVIDIAs experimenteller On-Device-Assistent für GeForce RTX-PCs, stellt Telemetrie- und Kontroll-PCs, CPU/GPU-Temperaturen, Auslastung und Lüfterkurven als Komponente in Langflow zur Verfügung. Workflows können den Systemstatus abfragen („GPU-Temperaturen abfragen“) oder Einstellungen ändern („Lüfterdrehzahlen einstellen“), indem sie natürliche Sprache verwenden und Antworten und Aktionen durch breitere Agentenketten leiten. Eine Plug-in-Architektur ermöglicht neue Befehle, und Community-Plug-ins können direkt in Langflow aufgerufen werden.

Langflow für NeMo Microservices

Über die Desktop-Agenten hinaus bietet Langflow eine Schnittstelle zu den NVIDIA NeMo-Microservices, die es Teams ermöglicht, Pipelines in On-Prem- oder Cloud-Kubernetes-Umgebungen zu entwerfen und zu implementieren und dann mit denselben visuellen Mustern zu iterieren, die sie lokal verwenden.

Lokale RTX-Workflows skalieren

Black Mixture, ein Studio für Motion Design und Produktion, hat einen großen Teil seiner Pipeline auf lokale, GPU-beschleunigte KI auf einer GeForce RTX 4090 umgestellt. In ComfyUI mischt das Team Modelle wie FLUX.1-dev und FLUX.1 Kontext, um Video- und Bildinhalte schnell zu iterieren:

Typische 1024×1024-Generationen werden in ~2-3 Sekunden auf der RTX 4090 in Standard-T2I-Grafiken abgeschlossen - schnell genug, um Hunderte von Variationen pro Sitzung zu bearbeiten.
FLUX.1 Kontext ermöglicht geführte Bearbeitungen von einem Prompt-Fenster aus (Posen, Kanten, Tiefe) und vermeidet so Multi-ControlNet-Setups. Quantisierte FP8/FP4-Varianten reduzieren den VRAM und beschleunigen die Inferenz, wobei FP8 auf der RTX 40 und FP4 auf der RTX 50 unterstützt wird; TensorRT-Optimierungen verbessern den Durchsatz weiter.
Stable Diffusion 3.5 unterstützt FP8 auf der RTX 40, wodurch der VRAM um ~40% reduziert wird und die Geschwindigkeit gegenüber FP16-Pfaden in unterstützten Pipelines um den Faktor 2 zunimmt.

Für die Aufnahme und das Finishing nutzt das Studio NVENC in OBS Studio und Premiere Pro, wobei die Codierung auf einer dedizierten GPU-Engine erfolgt, damit CUDA-Kerne für KI-Workloads frei bleiben. Die RTX-beschleunigten KI-Funktionen von Premiere (z. B. Sprachanhebung) und NVENC-Exporte verkürzen die Bearbeitungszeiten. Das Team bereitet einen Kurs für fortgeschrittene generative KI vor, der Workflows auf dem Gerät und RTX-Optimierungen abdeckt.

Quelle: NVIDIA Blog

NVIDIA und Langflow: Ollama für private RTX-Workflows, MCP zu RTX Remix und G-Assist-Steuerungen

Lokale Agenten, visuell erstellt

RTX Remix erhält MCP-Unterstützung für agentengesteuertes Modding

Project G-Assist wird ein Baustein in Langflow

Langflow für NeMo Microservices

Lokale RTX-Workflows skalieren

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Lokale Agenten, visuell erstellt

RTX Remix erhält MCP-Unterstützung für agentengesteuertes Modding

Project G-Assist wird ein Baustein in Langflow

Langflow für NeMo Microservices

Lokale RTX-Workflows skalieren

TIPP DES TAGES

Andere Artikel aus dieser Kategorie

Intel Core Ultra 9 285K Benchmarks zeigen starke Single-Core-Leistung

AMD Ryzen 9 9950X Test/Review vs Ryzen 9 7950X und Core i9-14900K

Ugreen DXP4800 Plus 4-Bay-NAS im Test

MSI MEG Z890 UNIFY-X-Overclocking-Motherboards mit Z890-Chipsatz enthüllt

G.SKILL Trident Z DDR5-9000 CL44-56-56 48 GB RAM-Kits vor