NVIDIA Nemotron 3 Ultra: 550 Milliarden Parameter, Open Source und 5x schneller als die Konkurrenz

NVIDIA hat auf der Computex 2026 ein Statement gesetzt: Nemotron 3 Ultra, ein Open-Source-Modell mit 550 Milliarden Parametern, das speziell für langlebige KI-Agenten entwickelt wurde. Seit dem 4. Juni ist es frei verfügbar — und die ersten Benchmarks sind beeindruckend.

Damit steigt der GPU-Hersteller, der bisher vor allem die Hardware für andere KI-Unternehmen lieferte, selbst in den Modell-Wettbewerb ein.

Die technischen Eckdaten

550 Milliarden Parameter gesamt (Mixture-of-Experts-Architektur)
55 Milliarden aktive Parameter pro Anfrage — der Rest bleibt inaktiv
Über 300 Tokens pro Sekunde — bis zu 5x schneller als vergleichbare Modelle
30% geringere Kosten als GPT-4o-class Modelle
Open Source unter einer permissiven Lizenz (kommerziell nutzbar)
Optimiert für NVIDIA TensorRT-LLM auf Hopper- und Blackwell-GPUs

Der entscheidende Punkt ist die Mixture-of-Experts-Architektur: Von den 550 Milliarden Parametern werden pro Anfrage nur 55 Milliarden aktiviert. Das macht das Modell so schnell und effizient, trotz seiner enormen Gesamtgröße. Zum Vergleich: Llama 4 Maverick nutzt ein ähnliches Prinzip.

Warum Nemotron 3 Ultra für Agenten gebaut ist

NVIDIA hat Nemotron 3 Ultra nicht als Chat-Modell positioniert — sondern als Backbone für KI-Agenten. Der Unterschied:

Chat-Modelle beantworten einzelne Fragen. Die Interaktion ist kurzlebig.
Agenten-Modelle führen mehrstufige Aufgaben aus, nutzen Tools, treffen Entscheidungen und korrigieren Fehler — über Minuten oder Stunden hinweg.

Nemotron 3 Ultra ist optimiert für Szenarien, in denen ein KI-Agent hunderte von Tool-Aufrufen hintereinander macht — z.B. Datenanalyse-Pipelines, automatisierte Code-Reviews oder komplexe Recherche-Workflows.

Erste Anwender sind unter anderem:

Accenture — für Enterprise-Automatisierung
CrowdStrike — für KI-gestützte Cybersecurity
Palantir — für Datenanalyse-Agenten
Perplexity — für schnellere Suchantworten

Was das für lokale KI bedeutet

Mit 55 Milliarden aktiven Parametern ist Nemotron 3 Ultra zu groß für die meisten Heim-Setups. Man bräuchte mindestens 40-48 GB VRAM für die quantisierte Version — das sind zwei RTX 3090 oder eine RTX 4090 mit Offloading.

Aber: NVIDIA hat auch kleinere Varianten angekündigt, die für lokale Nutzung in Frage kommen. Und das Open-Source-Modell kann mit Tools wie Ollama oder vLLM betrieben werden, sobald die Community GGUF-Quantisierungen erstellt.

Wer sich für lokale KI-Modelle interessiert: In unserer Übersicht mit über 120 lokalen Modellen findet ihr Hardware-Anforderungen, Fähigkeiten-Matrix und GPU-Kaufberatung.

NVIDIA vs. OpenAI vs. Meta: Der Open-Source-Dreikampf

Mit Nemotron 3 Ultra verschärft NVIDIA den Wettbewerb im Open-Source-Segment:

Modell	Parameter (aktiv)	Tokens/s	Open Source
Nemotron 3 Ultra	55B (von 550B MoE)	300+	Ja
Llama 4 Maverick	17B (von 400B MoE)	~200	Ja
Qwen 3	30B (von 235B MoE)	~180	Ja
GPT-4o	~200B (geschätzt)	~100	Nein

Der Trend ist eindeutig: Die besten Open-Source-Modelle holen bei der Qualität auf und sind bei Geschwindigkeit und Kosten schon überlegen. Für Unternehmen, die DSGVO-Konformität brauchen, wird Open Source immer attraktiver.

Fazit

NVIDIA zeigt mit Nemotron 3 Ultra, dass der GPU-Gigant mehr sein will als nur Chiplieferant. Ein 550B-Open-Source-Modell, das 5x schneller ist als die Konkurrenz und speziell für Agenten optimiert ist — das verändert die Spielregeln.

Besonders spannend: Wenn NVIDIA-Modelle auf NVIDIA-Hardware am besten laufen, entsteht ein vertikales Ökosystem, das schwer zu schlagen ist. Gut für Performance. Weniger gut für den Wettbewerb.

Quellen: NVIDIA Developer Blog, NVIDIA Newsroom

NVIDIA Nemotron 3 Ultra: 550 Milliarden Parameter, Open Source und 5x schneller als die Konkurrenz

Die technischen Eckdaten

Warum Nemotron 3 Ultra für Agenten gebaut ist

Was das für lokale KI bedeutet

NVIDIA vs. OpenAI vs. Meta: Der Open-Source-Dreikampf

Fazit

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

Die technischen Eckdaten

Warum Nemotron 3 Ultra für Agenten gebaut ist

Was das für lokale KI bedeutet

NVIDIA vs. OpenAI vs. Meta: Der Open-Source-Dreikampf

Fazit

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

KI-Tool der Woche