NVIDIA hat auf der Computex 2026 ein Statement gesetzt: Nemotron 3 Ultra, ein Open-Source-Modell mit 550 Milliarden Parametern, das speziell für langlebige KI-Agenten entwickelt wurde. Seit dem 4. Juni ist es frei verfügbar — und die ersten Benchmarks sind beeindruckend.
Damit steigt der GPU-Hersteller, der bisher vor allem die Hardware für andere KI-Unternehmen lieferte, selbst in den Modell-Wettbewerb ein.
Die technischen Eckdaten
- 550 Milliarden Parameter gesamt (Mixture-of-Experts-Architektur)
- 55 Milliarden aktive Parameter pro Anfrage — der Rest bleibt inaktiv
- Über 300 Tokens pro Sekunde — bis zu 5x schneller als vergleichbare Modelle
- 30% geringere Kosten als GPT-4o-class Modelle
- Open Source unter einer permissiven Lizenz (kommerziell nutzbar)
- Optimiert für NVIDIA TensorRT-LLM auf Hopper- und Blackwell-GPUs
- Chat-Modelle beantworten einzelne Fragen. Die Interaktion ist kurzlebig.
- Agenten-Modelle führen mehrstufige Aufgaben aus, nutzen Tools, treffen Entscheidungen und korrigieren Fehler — über Minuten oder Stunden hinweg.
- Accenture — für Enterprise-Automatisierung
- CrowdStrike — für KI-gestützte Cybersecurity
- Palantir — für Datenanalyse-Agenten
- Perplexity — für schnellere Suchantworten
Der entscheidende Punkt ist die Mixture-of-Experts-Architektur: Von den 550 Milliarden Parametern werden pro Anfrage nur 55 Milliarden aktiviert. Das macht das Modell so schnell und effizient, trotz seiner enormen Gesamtgröße. Zum Vergleich: Llama 4 Maverick nutzt ein ähnliches Prinzip.
Warum Nemotron 3 Ultra für Agenten gebaut ist
NVIDIA hat Nemotron 3 Ultra nicht als Chat-Modell positioniert — sondern als Backbone für KI-Agenten. Der Unterschied:
Nemotron 3 Ultra ist optimiert für Szenarien, in denen ein KI-Agent hunderte von Tool-Aufrufen hintereinander macht — z.B. Datenanalyse-Pipelines, automatisierte Code-Reviews oder komplexe Recherche-Workflows.
Erste Anwender sind unter anderem:
Was das für lokale KI bedeutet
Mit 55 Milliarden aktiven Parametern ist Nemotron 3 Ultra zu groß für die meisten Heim-Setups. Man bräuchte mindestens 40-48 GB VRAM für die quantisierte Version — das sind zwei RTX 3090 oder eine RTX 4090 mit Offloading.
Aber: NVIDIA hat auch kleinere Varianten angekündigt, die für lokale Nutzung in Frage kommen. Und das Open-Source-Modell kann mit Tools wie Ollama oder vLLM betrieben werden, sobald die Community GGUF-Quantisierungen erstellt.
Wer sich für lokale KI-Modelle interessiert: In unserer Übersicht mit über 120 lokalen Modellen findet ihr Hardware-Anforderungen, Fähigkeiten-Matrix und GPU-Kaufberatung.
NVIDIA vs. OpenAI vs. Meta: Der Open-Source-Dreikampf
Mit Nemotron 3 Ultra verschärft NVIDIA den Wettbewerb im Open-Source-Segment:
| Modell | Parameter (aktiv) | Tokens/s | Open Source |
|---|---|---|---|
| Nemotron 3 Ultra | 55B (von 550B MoE) | 300+ | Ja |
| Llama 4 Maverick | 17B (von 400B MoE) | ~200 | Ja |
| Qwen 3 | 30B (von 235B MoE) | ~180 | Ja |
| GPT-4o | ~200B (geschätzt) | ~100 | Nein |
Der Trend ist eindeutig: Die besten Open-Source-Modelle holen bei der Qualität auf und sind bei Geschwindigkeit und Kosten schon überlegen. Für Unternehmen, die DSGVO-Konformität brauchen, wird Open Source immer attraktiver.
Fazit
NVIDIA zeigt mit Nemotron 3 Ultra, dass der GPU-Gigant mehr sein will als nur Chiplieferant. Ein 550B-Open-Source-Modell, das 5x schneller ist als die Konkurrenz und speziell für Agenten optimiert ist — das verändert die Spielregeln.
Besonders spannend: Wenn NVIDIA-Modelle auf NVIDIA-Hardware am besten laufen, entsteht ein vertikales Ökosystem, das schwer zu schlagen ist. Gut für Performance. Weniger gut für den Wettbewerb.
Quellen: NVIDIA Developer Blog, NVIDIA Newsroom