100% Lokal · DSGVO

Gemma 4 E2B

von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar

Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis

3.5 Gesamt
Verfügbare Größen: 2.3B (5.1B mit Embeddings)

Was ist Gemma 4 E2B?

Gemma 4 E2B ist das kleinste Modell der vierten Generation von Googles offener Gemma-Modellfamilie, die im April 2026 unter der permissiven Apache 2.0 Lizenz veröffentlicht wurde. Trotz seiner kompakten Größe von nur 2,3 Milliarden effektiven Parametern (5,1 Milliarden inklusive Embeddings) bietet das E2B-Modell beeindruckende multimodale Fähigkeiten: Es verarbeitet nicht nur Text, sondern auch Bilder und Audio-Eingaben — eine Seltenheit in dieser Größenklasse. Das "E" im Namen steht für "Effective" und bezieht sich auf die innovative Per-Layer-Embeddings-Technik (PLE), die ein sekundäres Embedding-Signal in jede der 35 Decoder-Schichten einspeist und so die Repräsentationsfähigkeit deutlich über das hinaus steigert, was bei konventionellen 2B-Modellen üblich ist.

Mit einem Kontextfenster von 128.000 Tokens eignet sich das Modell hervorragend für die Verarbeitung längerer Dokumente, und die hybride Aufmerksamkeitsarchitektur, die lokale Sliding-Window-Attention mit globaler Attention kombiniert, sorgt für effiziente Verarbeitung. In Benchmarks erreicht Gemma 4 E2B 60,0% auf MMLU Pro und 37,5% auf AIME 2026 — Werte, die für ein Modell dieser Größe bemerkenswert sind. Besonders hervorzuheben ist die Eignung für Edge-Geräte: Das Modell läuft bereits auf Smartphones und Laptops mit bescheidener Hardware und benötigt nur 4 GB VRAM auf einer GPU oder 8 GB RAM für CPU-Inferenz.

Damit eignet es sich ideal als lokaler Assistent für Entwickler und Datenschutz-bewusste Nutzer, die ihre Daten nicht in die Cloud senden möchten. Die vollständige Kompatibilität mit Ollama, LM Studio, llama.cpp und anderen gängigen Inferenz-Frameworks macht den Einstieg denkbar einfach.

Fähigkeiten-Matrix

Was kann Gemma 4 E2B — und was nicht?

🇩🇪 Deutsch-Chat
3.0
🇬🇧 Englisch-Chat
3.5
🗣️ Multilingual
3.0
💻 Code-Generierung
3.0
🌍 Übersetzung
3.0
📋 Zusammenfassung
3.0
📄 RAG / Dokumente
3.0
🔧 Tool-Use / Function Calling
2.5
🌐 Browser-Automatisierung
1.0
👁️ Bildverständnis
3.5
🧮 Mathematik / Logik
2.5
✍️ Kreatives Schreiben
2.5

Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
E2B (2.3B effektiv) 8 GB 4 GB ✓ Ja (langsam) Q4_K_M (default) Jede GPU mit 4+ GB VRAM, Apple M1/M2 8GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.5/5
Inference-Speed ★★★★★ 5.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Gemma-Modelle

Gemma 4 31B

Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell

30.7B
Details ansehen

Gemma 4 26B MoE

Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität

25.2B gesamt / 3.8B aktiv (MoE)
Details ansehen

Gemma 4 E4B

Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio

4.5B (8B mit Embeddings)
Details ansehen

Gemma 2

Googles Open-Source-Modell — solider Allrounder in 9B und 27B

9B 27B
Details ansehen

War diese Übersicht hilfreich?