100% Lokal · DSGVO

Gemma 4 E4B

von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar

Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio

4.0 Gesamt
Verfügbare Größen: 4.5B (8B mit Embeddings)

Was ist Gemma 4 E4B?

Gemma 4 E4B ist das mittlere Edge-Modell der vierten Gemma-Generation von Google DeepMind, veröffentlicht am 2. April 2026 unter der Apache 2.0 Lizenz. Mit 4,5 Milliarden effektiven Parametern (8 Milliarden inklusive Embeddings) und 42 Decoder-Schichten bietet es einen ausgezeichneten Kompromiss zwischen Leistung und Ressourcenverbrauch.

Wie sein kleinerer Bruder E2B unterstützt auch das E4B-Modell alle drei Eingabemodalitäten — Text, Bild und Audio — und gehört damit zu den vielseitigsten kleinen Sprachmodellen auf dem Markt. Die Per-Layer-Embeddings-Technik (PLE) verleiht dem Modell eine Repräsentationstiefe, die weit über konventionelle 4B-Modelle hinausgeht. In den Benchmarks zeigt sich der deutliche Vorsprung gegenüber dem E2B: 69,4% auf MMLU Pro, 42,5% auf AIME 2026 und 52,0% auf LiveCodeBench v6 machen das E4B zu einem ernstzunehmenden Allrounder.

Besonders für Programmieraufgaben und mathematisches Reasoning bietet es eine spürbar höhere Qualität, während es gleichzeitig auf Consumer-Hardware problemlos läuft. Ein Kontextfenster von 128.000 Tokens ermöglicht die Verarbeitung ganzer Code-Repositories oder langer Dokumente in einem einzigen Prompt. Das Modell benötigt nur 6 GB VRAM — eine NVIDIA RTX 3060 12GB, RTX 4060 oder ein Apple MacBook mit M1/M2 und 16 GB Unified Memory reichen vollständig aus.

Auf Ollama belegt das Standard-Quantisierungsmodell etwa 9,6 GB und ist damit der ideale Kompromiss für Nutzer, die maximale Qualität bei minimalem Hardwarebedarf suchen. Die hybride Aufmerksamkeitsarchitektur mit Sliding-Window- und globaler Attention sorgt für schnelle Token-Verarbeitung auch bei langen Kontexten.

Fähigkeiten-Matrix

Was kann Gemma 4 E4B — und was nicht?

🇩🇪 Deutsch-Chat
3.5
🇬🇧 Englisch-Chat
4.0
🗣️ Multilingual
3.5
💻 Code-Generierung
3.5
🌍 Übersetzung
3.5
📋 Zusammenfassung
3.5
📄 RAG / Dokumente
3.5
🔧 Tool-Use / Function Calling
3.0
🌐 Browser-Automatisierung
1.5
👁️ Bildverständnis
4.0
🧮 Mathematik / Logik
3.0
✍️ Kreatives Schreiben
3.0

Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript, PHP, C#

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
E4B (4.5B effektiv) 16 GB 6 GB ✓ Ja (langsam) Q4_K_M (9.6 GB) NVIDIA RTX 3060 12GB, RTX 4060, Apple M1/M2 16GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5
Inference-Speed ★★★★☆ 4.5/5
RAM/VRAM-Effizienz ★★★★☆ 4.5/5

Weitere Gemma-Modelle

Gemma 4 31B

Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modell

30.7B
Details ansehen

Gemma 4 26B MoE

Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität

25.2B gesamt / 3.8B aktiv (MoE)
Details ansehen

Gemma 2

Googles Open-Source-Modell — solider Allrounder in 9B und 27B

9B 27B
Details ansehen

Gemma 4 E2B

Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis

2.3B (5.1B mit Embeddings)
Details ansehen

War diese Übersicht hilfreich?