100% Lokal · DSGVO

Gemma 4 E4B

von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar

Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio

4.0 Gesamt

Verfügbare Größen: 4.5B (8B mit Embeddings)

ollama run gemma4:e4b Website HuggingFace

Was ist Gemma 4 E4B?

Gemma 4 E4B ist das mittlere Edge-Modell der vierten Gemma-Generation von Google DeepMind, veröffentlicht am 2. April 2026 unter der Apache 2.0 Lizenz. Mit 4,5 Milliarden effektiven Parametern (8 Milliarden inklusive Embeddings) und 42 Decoder-Schichten bietet es einen ausgezeichneten Kompromiss zwischen Leistung und Ressourcenverbrauch.

Wie sein kleinerer Bruder E2B unterstützt auch das E4B-Modell alle drei Eingabemodalitäten — Text, Bild und Audio — und gehört damit zu den vielseitigsten kleinen Sprachmodellen auf dem Markt. Die Per-Layer-Embeddings-Technik (PLE) verleiht dem Modell eine Repräsentationstiefe, die weit über konventionelle 4B-Modelle hinausgeht. In den Benchmarks zeigt sich der deutliche Vorsprung gegenüber dem E2B: 69,4% auf MMLU Pro, 42,5% auf AIME 2026 und 52,0% auf LiveCodeBench v6 machen das E4B zu einem ernstzunehmenden Allrounder.

Besonders für Programmieraufgaben und mathematisches Reasoning bietet es eine spürbar höhere Qualität, während es gleichzeitig auf Consumer-Hardware problemlos läuft. Ein Kontextfenster von 128.000 Tokens ermöglicht die Verarbeitung ganzer Code-Repositories oder langer Dokumente in einem einzigen Prompt. Das Modell benötigt nur 6 GB VRAM — eine NVIDIA RTX 3060 12GB, RTX 4060 oder ein Apple MacBook mit M1/M2 und 16 GB Unified Memory reichen vollständig aus.

Auf Ollama belegt das Standard-Quantisierungsmodell etwa 9,6 GB und ist damit der ideale Kompromiss für Nutzer, die maximale Qualität bei minimalem Hardwarebedarf suchen. Die hybride Aufmerksamkeitsarchitektur mit Sliding-Window- und globaler Attention sorgt für schnelle Token-Verarbeitung auch bei langen Kontexten.

Fähigkeiten-Matrix

Was kann Gemma 4 E4B — und was nicht?

🇩🇪 Deutsch-Chat

3.5

🇬🇧 Englisch-Chat

4.0

🗣️ Multilingual

3.5

💻 Code-Generierung

3.5

🌍 Übersetzung

3.5

📋 Zusammenfassung

3.5

📄 RAG / Dokumente

3.5

🔧 Tool-Use / Function Calling

3.0

🌐 Browser-Automatisierung

1.5

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

3.0

✍️ Kreatives Schreiben

3.0

Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript, PHP, C#

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
E4B (4.5B effektiv)	16 GB	6 GB	✓ Ja (langsam)	Q4_K_M (9.6 GB)	NVIDIA RTX 3060 12GB, RTX 4060, Apple M1/M2 16GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

Weitere Gemma-Modelle

Gemma 4 31B

Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell

30.7B

Details ansehen

Gemma 4 26B MoE

Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität

25.2B gesamt / 3.8B aktiv (MoE)

Details ansehen

Gemma 2

Googles Open-Source-Modell — solider Allrounder in 9B und 27B

9B 27B

Details ansehen

Gemma 4 E2B

Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis

2.3B (5.1B mit Embeddings)

Details ansehen

War diese Übersicht hilfreich?