100% Lokal · DSGVO

Llama 4 Behemoth

von Meta AI · Lizenz: Llama 4 Community License · Kommerziell nutzbar

Metas größtes Modell mit 2 Billionen Parametern — das mächtigste Open-Source-Modell aller Zeiten

5.0 Gesamt

Verfügbare Größen: 2T (288B aktiv) MoE

ollama run llama4-behemoth Website HuggingFace

Was ist Llama 4 Behemoth?

Llama 4 Behemoth ist Metas Flaggschiff-Modell der vierten Generation und mit 2 Billionen Gesamtparametern (288 Milliarden aktiv) das größte offene Sprachmodell der Welt. Als Mixture-of-Experts-Modell aktiviert Behemoth nur einen Bruchteil seiner Parameter pro Anfrage, was trotz der enormen Gesamtgröße eine vergleichsweise effiziente Inferenz ermöglicht. Behemoth setzt neue Benchmarks in praktisch allen Kategorien: Es übertrifft GPT-5.5 und Claude Opus 4.7 in mehreren unabhängigen Tests bei Reasoning, Coding, Mathematik und multilingualem Verständnis.

Besonders beeindruckend ist die multimodale Fähigkeit: Behemoth versteht Text, Bilder, Video und Audio nativ und kann zwischen diesen Modalitäten nahtlos wechseln. Für den lokalen Betrieb ist Behemoth extrem anspruchsvoll: Selbst quantisiert benötigt es mehrere High-End-GPUs. In Q4-Quantisierung passen die aktiven Parameter auf etwa 4x A100 80GB oder einen vergleichbaren GPU-Cluster.

Für die meisten lokalen Anwendungen sind die kleineren Llama-4-Varianten Scout (17B aktiv) und Maverick (17B aktiv, 128 Experten) die praktischere Wahl. Llama 4 Behemoth ist unter der Llama-4-Community-Lizenz verfügbar, die kommerzielle Nutzung für Unternehmen mit unter 700 Millionen monatlichen Nutzern erlaubt. Für die KI-Community ist Behemoth ein Meilenstein: Es beweist, dass Open-Source-Modelle bei der reinen Leistung mit den teuersten proprietären Modellen gleichziehen können.

Fähigkeiten-Matrix

Was kann Llama 4 Behemoth — und was nicht?

🇩🇪 Deutsch-Chat

4.5

🇬🇧 Englisch-Chat

5.0

🗣️ Multilingual

5.0

💻 Code-Generierung

5.0

🌍 Übersetzung

4.5

📋 Zusammenfassung

5.0

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

5.0

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

5.0

🧮 Mathematik / Logik

5.0

✍️ Kreatives Schreiben

4.5

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
?	? GB	? GB	✗ Nein	Q4_K_M	—

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★☆☆☆ 2.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?