Gemma 4 E2B
von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar
Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis
Was ist Gemma 4 E2B?
Gemma 4 E2B ist das kleinste Modell der vierten Generation von Googles offener Gemma-Modellfamilie, die im April 2026 unter der permissiven Apache 2.0 Lizenz veröffentlicht wurde. Trotz seiner kompakten Größe von nur 2,3 Milliarden effektiven Parametern (5,1 Milliarden inklusive Embeddings) bietet das E2B-Modell beeindruckende multimodale Fähigkeiten: Es verarbeitet nicht nur Text, sondern auch Bilder und Audio-Eingaben — eine Seltenheit in dieser Größenklasse. Das "E" im Namen steht für "Effective" und bezieht sich auf die innovative Per-Layer-Embeddings-Technik (PLE), die ein sekundäres Embedding-Signal in jede der 35 Decoder-Schichten einspeist und so die Repräsentationsfähigkeit deutlich über das hinaus steigert, was bei konventionellen 2B-Modellen üblich ist.
Mit einem Kontextfenster von 128.000 Tokens eignet sich das Modell hervorragend für die Verarbeitung längerer Dokumente, und die hybride Aufmerksamkeitsarchitektur, die lokale Sliding-Window-Attention mit globaler Attention kombiniert, sorgt für effiziente Verarbeitung. In Benchmarks erreicht Gemma 4 E2B 60,0% auf MMLU Pro und 37,5% auf AIME 2026 — Werte, die für ein Modell dieser Größe bemerkenswert sind. Besonders hervorzuheben ist die Eignung für Edge-Geräte: Das Modell läuft bereits auf Smartphones und Laptops mit bescheidener Hardware und benötigt nur 4 GB VRAM auf einer GPU oder 8 GB RAM für CPU-Inferenz.
Damit eignet es sich ideal als lokaler Assistent für Entwickler und Datenschutz-bewusste Nutzer, die ihre Daten nicht in die Cloud senden möchten. Die vollständige Kompatibilität mit Ollama, LM Studio, llama.cpp und anderen gängigen Inferenz-Frameworks macht den Einstieg denkbar einfach.
Fähigkeiten-Matrix
Was kann Gemma 4 E2B — und was nicht?
Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| E2B (2.3B effektiv) | 8 GB | 4 GB | ✓ Ja (langsam) | Q4_K_M (default) | Jede GPU mit 4+ GB VRAM, Apple M1/M2 8GB |
Kompatibilität
Bewertung
Weitere Gemma-Modelle
Gemma 4 31B
Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell
Gemma 4 26B MoE
Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität
Gemma 4 E4B
Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio
War diese Übersicht hilfreich?