100% Lokal · DSGVO

Llama 4 Scout

von Meta · Lizenz: llama-4-community · Kommerziell nutzbar

Metas effizientes MoE-Modell mit 109B Parametern und 16 Experten

4.5 Gesamt

Verfügbare Größen: 109B MoE (17B aktiv)

ollama run llama4:scout Website HuggingFace

Was ist Llama 4 Scout?

Llama 4 Scout ist das effizientere der beiden Llama-4-Modelle von Meta und basiert auf einer Mixture-of-Experts-Architektur (MoE) mit 17 Milliarden aktiven Parametern bei insgesamt 109 Milliarden Parametern und 16 Experten. Dieses Design ermöglicht eine beeindruckende Balance zwischen Leistung und Ressourcenverbrauch: Obwohl das Modell insgesamt sehr groß ist, werden bei jeder Anfrage nur die relevanten Experten aktiviert, was den Speicherbedarf und die Rechenzeit deutlich reduziert. Llama 4 Scout unterstützt ein enormes Kontextfenster von bis zu 10 Millionen Tokens, was es ideal für die Verarbeitung sehr langer Dokumente, umfangreicher Codebasen oder komplexer Analyseaufgaben macht.

In Benchmarks übertrifft Scout viele etablierte Modelle wie Gemma 3 27B und Qwen 2.5 72B in zahlreichen Kategorien, darunter Textverständnis, Coding und mathematisches Reasoning. Die multilinguale Fähigkeit ist ebenfalls stark ausgeprägt — Deutsch wird gut unterstützt, wenn auch Englisch weiterhin die stärkste Sprache bleibt. Das Modell wurde unter der Llama-4-Community-Lizenz veröffentlicht, die kommerzielle Nutzung erlaubt.

Für den lokalen Betrieb benötigt man allerdings erhebliche Hardware: Mindestens 64 GB RAM und eine leistungsstarke GPU mit 48 GB VRAM sind empfehlenswert, wobei quantisierte Versionen auch auf Consumer-Hardware wie der RTX 4090 lauffähig sind. Ollama und LM Studio bieten bereits Unterstützung, und die Integration in bestehende Workflows ist dank der breiten Kompatibilität mit gängigen Inference-Frameworks problemlos möglich. Vision-Fähigkeiten sind integriert, sodass Scout auch Bilder analysieren und beschreiben kann.

Fähigkeiten-Matrix

Was kann Llama 4 Scout — und was nicht?

🇩🇪 Deutsch-Chat

4.0

🇬🇧 Englisch-Chat

5.0

🗣️ Multilingual

4.0

💻 Code-Generierung

4.5

🌍 Übersetzung

4.0

📋 Zusammenfassung

4.5

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

4.0

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

4.5

✍️ Kreatives Schreiben

4.0

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, Rust, Go, PHP, SQL, C#

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
109B MoE	64 GB	48 GB	✗ Nein	Q4_K_M	RTX 4090 24GB (Q4) oder A100 80GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.0/5

Weitere Llama-Modelle

Llama 4 Maverick

Metas großes MoE-Flaggschiff mit 400B Parametern und 128 Experten

400B MoE (17B aktiv)

Details ansehen

Llama 3.3

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

70B

Details ansehen

Llama 3.2 Vision

Multimodales Open-Source-Modell mit Bildverständnis von Meta

11B 90B

Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B

Details ansehen

Llama 3.2

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

1B 3B

Details ansehen

Vicuna

Pionier der Open-Source-Chatbots — feinabgestimmtes Llama-Modell

7B 13B

Details ansehen

War diese Übersicht hilfreich?