NVIDIA Nemotron 3 Ultra: 550 Milliarden Parameter, Open Source und 5x schneller als die Konkurrenz

NVIDIA Nemotron 3 Ultra: 550 Milliarden Parameter, Open Source und 5x schneller als die Konkurrenz

NVIDIA hat auf der Computex 2026 ein Statement gesetzt: Nemotron 3 Ultra, ein Open-Source-Modell mit 550 Milliarden Parametern, das speziell für langlebige KI-Agenten entwickelt wurde. Seit dem 4. Juni ist es frei verfügbar — und die ersten Benchmarks sind beeindruckend.

Damit steigt der GPU-Hersteller, der bisher vor allem die Hardware für andere KI-Unternehmen lieferte, selbst in den Modell-Wettbewerb ein.

Die technischen Eckdaten

    • 550 Milliarden Parameter gesamt (Mixture-of-Experts-Architektur)
    • 55 Milliarden aktive Parameter pro Anfrage — der Rest bleibt inaktiv
    • Über 300 Tokens pro Sekunde — bis zu 5x schneller als vergleichbare Modelle
    • 30% geringere Kosten als GPT-4o-class Modelle
    • Open Source unter einer permissiven Lizenz (kommerziell nutzbar)
    • Optimiert für NVIDIA TensorRT-LLM auf Hopper- und Blackwell-GPUs

    Der entscheidende Punkt ist die Mixture-of-Experts-Architektur: Von den 550 Milliarden Parametern werden pro Anfrage nur 55 Milliarden aktiviert. Das macht das Modell so schnell und effizient, trotz seiner enormen Gesamtgröße. Zum Vergleich: Llama 4 Maverick nutzt ein ähnliches Prinzip.

    Warum Nemotron 3 Ultra für Agenten gebaut ist

    NVIDIA hat Nemotron 3 Ultra nicht als Chat-Modell positioniert — sondern als Backbone für KI-Agenten. Der Unterschied:

    • Chat-Modelle beantworten einzelne Fragen. Die Interaktion ist kurzlebig.
    • Agenten-Modelle führen mehrstufige Aufgaben aus, nutzen Tools, treffen Entscheidungen und korrigieren Fehler — über Minuten oder Stunden hinweg.

    Nemotron 3 Ultra ist optimiert für Szenarien, in denen ein KI-Agent hunderte von Tool-Aufrufen hintereinander macht — z.B. Datenanalyse-Pipelines, automatisierte Code-Reviews oder komplexe Recherche-Workflows.

    Erste Anwender sind unter anderem:

    • Accenture — für Enterprise-Automatisierung
    • CrowdStrike — für KI-gestützte Cybersecurity
    • Palantir — für Datenanalyse-Agenten
    • Perplexity — für schnellere Suchantworten

Was das für lokale KI bedeutet

Mit 55 Milliarden aktiven Parametern ist Nemotron 3 Ultra zu groß für die meisten Heim-Setups. Man bräuchte mindestens 40-48 GB VRAM für die quantisierte Version — das sind zwei RTX 3090 oder eine RTX 4090 mit Offloading.

Aber: NVIDIA hat auch kleinere Varianten angekündigt, die für lokale Nutzung in Frage kommen. Und das Open-Source-Modell kann mit Tools wie Ollama oder vLLM betrieben werden, sobald die Community GGUF-Quantisierungen erstellt.

Wer sich für lokale KI-Modelle interessiert: In unserer Übersicht mit über 120 lokalen Modellen findet ihr Hardware-Anforderungen, Fähigkeiten-Matrix und GPU-Kaufberatung.

NVIDIA vs. OpenAI vs. Meta: Der Open-Source-Dreikampf

Mit Nemotron 3 Ultra verschärft NVIDIA den Wettbewerb im Open-Source-Segment:

ModellParameter (aktiv)Tokens/sOpen Source
Nemotron 3 Ultra55B (von 550B MoE)300+Ja
Llama 4 Maverick17B (von 400B MoE)~200Ja
Qwen 330B (von 235B MoE)~180Ja
GPT-4o~200B (geschätzt)~100Nein

Der Trend ist eindeutig: Die besten Open-Source-Modelle holen bei der Qualität auf und sind bei Geschwindigkeit und Kosten schon überlegen. Für Unternehmen, die DSGVO-Konformität brauchen, wird Open Source immer attraktiver.

Fazit

NVIDIA zeigt mit Nemotron 3 Ultra, dass der GPU-Gigant mehr sein will als nur Chiplieferant. Ein 550B-Open-Source-Modell, das 5x schneller ist als die Konkurrenz und speziell für Agenten optimiert ist — das verändert die Spielregeln.

Besonders spannend: Wenn NVIDIA-Modelle auf NVIDIA-Hardware am besten laufen, entsteht ein vertikales Ökosystem, das schwer zu schlagen ist. Gut für Performance. Weniger gut für den Wettbewerb.

Quellen: NVIDIA Developer Blog, NVIDIA Newsroom