100% Lokal · DSGVO

Gemma 4 26B MoE

von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar

Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität

4.5 Gesamt

Verfügbare Größen: 25.2B gesamt / 3.8B aktiv (MoE)

ollama run gemma4:26b Website HuggingFace

Was ist Gemma 4 26B MoE?

Gemma 4 26B A4B ist das Mixture-of-Experts-Flaggschiff der vierten Gemma-Generation, veröffentlicht von Google DeepMind am 2. April 2026 unter der Apache 2.0 Lizenz. Die geniale Architektur aktiviert bei jeder Token-Verarbeitung nur 3,8 Milliarden der insgesamt 25,2 Milliarden Parameter — durch ein System von 128 Experten-Modulen, von denen jeweils nur 8 gleichzeitig aktiv sind.

Das Ergebnis ist ein Modell, das die Wissenskapazität eines 26B-Modells mit der Inferenzgeschwindigkeit eines 4B-Modells kombiniert. In den Benchmarks belegt das 26B MoE den sechsten Platz unter allen offenen Modellen weltweit auf dem Arena AI Leaderboard und erreicht 82,6% auf MMLU Pro, 88,3% auf AIME 2026 und 77,1% auf LiveCodeBench v6 — Ergebnisse, die viele deutlich größere Dense-Modelle in den Schatten stellen. Besonders beeindruckend ist die Inferenzgeschwindigkeit: Auf einer NVIDIA RTX 3090 erreicht das Modell über 1.000 Tokens pro Sekunde beim Prompt-Processing und 64-119 Tokens pro Sekunde bei der Textgenerierung.

Mit einem Kontextfenster von 256.000 Tokens können komplette Code-Repositories, wissenschaftliche Paper oder umfangreiche Dokumentensammlungen in einem einzigen Durchlauf verarbeitet werden. Das Modell unterstützt Text- und Bildeingaben und eignet sich hervorragend für anspruchsvolle Reasoning-Aufgaben, Code-Generierung und mathematische Problemlösung. In der 4-Bit-Quantisierung benötigt es nur etwa 18 GB VRAM und läuft damit auf einer einzelnen RTX 3090, RTX 4090 oder einem Mac Studio mit 32 GB Unified Memory.

Für Nutzer, die maximale Leistung pro eingesetztem Watt suchen, ist das 26B MoE die optimale Wahl in der Gemma 4 Familie.

Fähigkeiten-Matrix

Was kann Gemma 4 26B MoE — und was nicht?

🇩🇪 Deutsch-Chat

4.5

🇬🇧 Englisch-Chat

4.5

🗣️ Multilingual

4.5

💻 Code-Generierung

4.5

🌍 Übersetzung

4.5

📋 Zusammenfassung

4.5

📄 RAG / Dokumente

4.5

🔧 Tool-Use / Function Calling

4.0

🌐 Browser-Automatisierung

2.5

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

4.5

✍️ Kreatives Schreiben

4.0

Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript, PHP, C#, Kotlin, Swift, Ruby

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
26B MoE Q4 (4-bit)	24 GB	18 GB	✗ Nein	Q4_K_M (~18 GB)	NVIDIA RTX 3090/4090 24GB, Apple M2 Pro/Max 32GB
26B MoE Q8 (8-bit)	32 GB	28 GB	✗ Nein	Q8_0 (~28 GB)	NVIDIA RTX 3090 24GB + Offloading, Apple M2 Max 64GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Gemma-Modelle

Gemma 4 31B

Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell

30.7B

Details ansehen

Gemma 4 E4B

Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio

4.5B (8B mit Embeddings)

Details ansehen

Gemma 2

Googles Open-Source-Modell — solider Allrounder in 9B und 27B

9B 27B

Details ansehen

Gemma 4 E2B

Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis

2.3B (5.1B mit Embeddings)

Details ansehen

War diese Übersicht hilfreich?