100% Lokal · DSGVO

Llama 4 Maverick

von Meta · Lizenz: llama-4-community · Kommerziell nutzbar

Metas großes MoE-Flaggschiff mit 400B Parametern und 128 Experten

5.0 Gesamt

Verfügbare Größen: 400B MoE (17B aktiv)

ollama run llama4:maverick Website HuggingFace

Was ist Llama 4 Maverick?

Llama 4 Maverick ist das leistungsstärkste Modell der Llama-4-Familie und setzt neue Maßstäbe für Open-Source-Sprachmodelle. Mit einer beeindruckenden Mixture-of-Experts-Architektur verfügt es über 400 Milliarden Parameter insgesamt, wobei bei jeder Anfrage 17 Milliarden aktive Parameter aus 128 spezialisierten Experten ausgewählt werden. Diese Architektur ermöglicht eine Qualität, die in vielen Benchmarks mit GPT-4o und Claude 3.5 Sonnet konkurriert, während das Modell dank der effizienten Expert-Routing-Mechanismen überraschend schnell arbeitet.

Maverick glänzt besonders bei komplexen Reasoning-Aufgaben, kreativem Schreiben, Coding und multilingualer Kommunikation. Die deutschsprachige Leistung ist deutlich besser als bei Vorgängermodellen und erreicht ein sehr hohes Niveau. Das Kontextfenster umfasst bis zu 1 Million Tokens, was umfangreiche Dokumentenanalysen und Code-Reviews ermöglicht.

Vision-Fähigkeiten sind vollständig integriert, sodass Maverick Bilder verstehen, beschreiben und analysieren kann. Für den lokalen Betrieb ist allerdings erhebliche Hardware erforderlich: Im Vollformat benötigt das Modell mehrere A100-GPUs, aber quantisierte Versionen (Q4) können auf Systemen mit 2x RTX 4090 oder einer A100 80GB betrieben werden. Die Llama-4-Community-Lizenz erlaubt kommerzielle Nutzung.

Ollama bietet bereits optimierte GGUF-Versionen an, und die Integration in bestehende Inference-Pipelines ist dank breiter Framework-Unterstützung unkompliziert. Maverick ist die Top-Wahl für Nutzer, die das Maximum an Open-Source-KI-Leistung lokal betreiben möchten.

Fähigkeiten-Matrix

Was kann Llama 4 Maverick — und was nicht?

🇩🇪 Deutsch-Chat

4.5

🇬🇧 Englisch-Chat

5.0

🗣️ Multilingual

4.5

💻 Code-Generierung

5.0

🌍 Übersetzung

4.5

📋 Zusammenfassung

5.0

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

4.5

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.5

🧮 Mathematik / Logik

5.0

✍️ Kreatives Schreiben

4.5

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, Rust, Go, PHP, SQL, C#, Kotlin, Swift

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
400B MoE	128 GB	80 GB	✗ Nein	Q4_K_M	2x RTX 4090 (Q4) oder A100 80GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

Weitere Llama-Modelle

Llama 3.3

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

70B

Details ansehen

Llama 4 Scout

Metas effizientes MoE-Modell mit 109B Parametern und 16 Experten

109B MoE (17B aktiv)

Details ansehen

Llama 3.2 Vision

Multimodales Open-Source-Modell mit Bildverständnis von Meta

11B 90B

Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B

Details ansehen

Llama 3.2

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

1B 3B

Details ansehen

Vicuna

Pionier der Open-Source-Chatbots — feinabgestimmtes Llama-Modell

7B 13B

Details ansehen

War diese Übersicht hilfreich?