100% Lokal · DSGVO

Gemma 4 E2B

von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar

Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis

3.5 Gesamt

Verfügbare Größen: 2.3B (5.1B mit Embeddings)

ollama run gemma4:e2b Website HuggingFace

Was ist Gemma 4 E2B?

Gemma 4 E2B ist das kleinste Modell der vierten Generation von Googles offener Gemma-Modellfamilie, die im April 2026 unter der permissiven Apache 2.0 Lizenz veröffentlicht wurde. Trotz seiner kompakten Größe von nur 2,3 Milliarden effektiven Parametern (5,1 Milliarden inklusive Embeddings) bietet das E2B-Modell beeindruckende multimodale Fähigkeiten: Es verarbeitet nicht nur Text, sondern auch Bilder und Audio-Eingaben — eine Seltenheit in dieser Größenklasse. Das "E" im Namen steht für "Effective" und bezieht sich auf die innovative Per-Layer-Embeddings-Technik (PLE), die ein sekundäres Embedding-Signal in jede der 35 Decoder-Schichten einspeist und so die Repräsentationsfähigkeit deutlich über das hinaus steigert, was bei konventionellen 2B-Modellen üblich ist.

Mit einem Kontextfenster von 128.000 Tokens eignet sich das Modell hervorragend für die Verarbeitung längerer Dokumente, und die hybride Aufmerksamkeitsarchitektur, die lokale Sliding-Window-Attention mit globaler Attention kombiniert, sorgt für effiziente Verarbeitung. In Benchmarks erreicht Gemma 4 E2B 60,0% auf MMLU Pro und 37,5% auf AIME 2026 — Werte, die für ein Modell dieser Größe bemerkenswert sind. Besonders hervorzuheben ist die Eignung für Edge-Geräte: Das Modell läuft bereits auf Smartphones und Laptops mit bescheidener Hardware und benötigt nur 4 GB VRAM auf einer GPU oder 8 GB RAM für CPU-Inferenz.

Damit eignet es sich ideal als lokaler Assistent für Entwickler und Datenschutz-bewusste Nutzer, die ihre Daten nicht in die Cloud senden möchten. Die vollständige Kompatibilität mit Ollama, LM Studio, llama.cpp und anderen gängigen Inferenz-Frameworks macht den Einstieg denkbar einfach.

Fähigkeiten-Matrix

Was kann Gemma 4 E2B — und was nicht?

🇩🇪 Deutsch-Chat

3.0

🇬🇧 Englisch-Chat

3.5

🗣️ Multilingual

3.0

💻 Code-Generierung

3.0

🌍 Übersetzung

3.0

📋 Zusammenfassung

3.0

📄 RAG / Dokumente

3.0

🔧 Tool-Use / Function Calling

2.5

🌐 Browser-Automatisierung

1.0

👁️ Bildverständnis

3.5

🧮 Mathematik / Logik

2.5

✍️ Kreatives Schreiben

2.5

Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
E2B (2.3B effektiv)	8 GB	4 GB	✓ Ja (langsam)	Q4_K_M (default)	Jede GPU mit 4+ GB VRAM, Apple M1/M2 8GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.5/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Gemma-Modelle

Gemma 4 31B

Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell

30.7B

Details ansehen

Gemma 4 26B MoE

Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität

25.2B gesamt / 3.8B aktiv (MoE)

Details ansehen

Gemma 4 E4B

Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio

4.5B (8B mit Embeddings)

Details ansehen

Gemma 2

Googles Open-Source-Modell — solider Allrounder in 9B und 27B

9B 27B

Details ansehen

War diese Übersicht hilfreich?