Gemma 4 26B MoE
von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar
Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität
Was ist Gemma 4 26B MoE?
Gemma 4 26B A4B ist das Mixture-of-Experts-Flaggschiff der vierten Gemma-Generation, veröffentlicht von Google DeepMind am 2. April 2026 unter der Apache 2.0 Lizenz. Die geniale Architektur aktiviert bei jeder Token-Verarbeitung nur 3,8 Milliarden der insgesamt 25,2 Milliarden Parameter — durch ein System von 128 Experten-Modulen, von denen jeweils nur 8 gleichzeitig aktiv sind.
Das Ergebnis ist ein Modell, das die Wissenskapazität eines 26B-Modells mit der Inferenzgeschwindigkeit eines 4B-Modells kombiniert. In den Benchmarks belegt das 26B MoE den sechsten Platz unter allen offenen Modellen weltweit auf dem Arena AI Leaderboard und erreicht 82,6% auf MMLU Pro, 88,3% auf AIME 2026 und 77,1% auf LiveCodeBench v6 — Ergebnisse, die viele deutlich größere Dense-Modelle in den Schatten stellen. Besonders beeindruckend ist die Inferenzgeschwindigkeit: Auf einer NVIDIA RTX 3090 erreicht das Modell über 1.000 Tokens pro Sekunde beim Prompt-Processing und 64-119 Tokens pro Sekunde bei der Textgenerierung.
Mit einem Kontextfenster von 256.000 Tokens können komplette Code-Repositories, wissenschaftliche Paper oder umfangreiche Dokumentensammlungen in einem einzigen Durchlauf verarbeitet werden. Das Modell unterstützt Text- und Bildeingaben und eignet sich hervorragend für anspruchsvolle Reasoning-Aufgaben, Code-Generierung und mathematische Problemlösung. In der 4-Bit-Quantisierung benötigt es nur etwa 18 GB VRAM und läuft damit auf einer einzelnen RTX 3090, RTX 4090 oder einem Mac Studio mit 32 GB Unified Memory.
Für Nutzer, die maximale Leistung pro eingesetztem Watt suchen, ist das 26B MoE die optimale Wahl in der Gemma 4 Familie.
Fähigkeiten-Matrix
Was kann Gemma 4 26B MoE — und was nicht?
Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript, PHP, C#, Kotlin, Swift, Ruby
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 26B MoE Q4 (4-bit) | 24 GB | 18 GB | ✗ Nein | Q4_K_M (~18 GB) | NVIDIA RTX 3090/4090 24GB, Apple M2 Pro/Max 32GB |
| 26B MoE Q8 (8-bit) | 32 GB | 28 GB | ✗ Nein | Q8_0 (~28 GB) | NVIDIA RTX 3090 24GB + Offloading, Apple M2 Max 64GB |
Kompatibilität
Bewertung
Weitere Gemma-Modelle
Gemma 4 31B
Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell
Gemma 4 E4B
Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio
Gemma 4 E2B
Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis
War diese Übersicht hilfreich?