100% Lokal · DSGVO

Gemma 4 31B

von Google DeepMind · Lizenz: Apache 2.0 · Kommerziell nutzbar

Googles leistungsstärkstes offenes Dense-Modell — Platz 3 weltweit unter allen Open-Weight-Modellen

5.0 Gesamt

Verfügbare Größen: 30.7B

ollama run gemma4:31b Website HuggingFace

Was ist Gemma 4 31B?

Gemma 4 31B Dense ist das absolute Spitzenmodell der vierten Gemma-Generation und belegt den dritten Platz unter allen offenen Modellen weltweit auf dem renommierten Arena AI Leaderboard — eine bemerkenswerte Leistung für ein 31-Milliarden-Parameter-Modell. Google DeepMind hat es am 2. April 2026 unter der vollständig permissiven Apache 2.0 Lizenz veröffentlicht, die uneingeschränkte kommerzielle Nutzung, Modifikation und Weiterverteilung erlaubt.

Mit 30,7 Milliarden Parametern in 60 Dense-Schichten und einem Kontextfenster von 256.000 Tokens setzt das Modell neue Maßstäbe in seiner Größenklasse. Die Benchmark-Ergebnisse sind herausragend: 85,2% auf MMLU Pro übertrifft viele Modelle mit dem Vielfachen an Parametern, 89,2% auf AIME 2026 demonstriert außergewöhnliches mathematisches Reasoning, und 80,0% auf LiveCodeBench v6 zeigt erstklassige Code-Generierungsfähigkeiten. Auf dem GPQA Diamond Benchmark für wissenschaftliches Reasoning erreicht es 84,3%.

Das Modell verarbeitet Text- und Bildeingaben und eignet sich besonders für anspruchsvolle agentic Workflows, komplexe Reasoning-Ketten und professionelle Code-Entwicklung. Die hybride Aufmerksamkeitsarchitektur mit Sliding-Window- und globaler Attention sorgt für effiziente Verarbeitung auch bei sehr langen Kontexten. In der 4-Bit-Quantisierung benötigt das Modell etwa 20 GB VRAM und läuft auf einer einzelnen NVIDIA RTX 3090 oder RTX 4090 mit 24 GB.

Auf einer RTX 3090 generiert es 30-34 Tokens pro Sekunde — langsamer als das 26B MoE, dafür mit der höchsten Antwortqualität. Für Nutzer mit entsprechender Hardware ist Gemma 4 31B die erste Wahl, wenn es auf maximale Qualität bei Reasoning, Coding und komplexen Aufgaben ankommt.

Fähigkeiten-Matrix

Was kann Gemma 4 31B — und was nicht?

🇩🇪 Deutsch-Chat

4.5

🇬🇧 Englisch-Chat

5.0

🗣️ Multilingual

4.5

💻 Code-Generierung

5.0

🌍 Übersetzung

4.5

📋 Zusammenfassung

5.0

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

4.5

🌐 Browser-Automatisierung

3.0

👁️ Bildverständnis

4.5

🧮 Mathematik / Logik

5.0

✍️ Kreatives Schreiben

4.5

Unterstützte Programmiersprachen: Python, JavaScript, Java, C++, Go, Rust, TypeScript, PHP, C#, Kotlin, Swift, Ruby, Scala, Haskell

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
31B Dense Q4 (4-bit)	24 GB	20 GB	✗ Nein	Q4_K_M (~20 GB)	NVIDIA RTX 3090/4090 24GB, Apple M2 Pro/Max 32GB
31B Dense Q8 (8-bit)	48 GB	34 GB	✗ Nein	Q8_0 (~34 GB)	2x NVIDIA RTX 3090/4090, Apple M2 Ultra 64GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

Weitere Gemma-Modelle

Gemma 4 26B MoE

Hocheffizientes Mixture-of-Experts-Modell mit nur 4B aktiven Parametern bei 26B Gesamtkapazität

25.2B gesamt / 3.8B aktiv (MoE)

Details ansehen

Gemma 4 E4B

Vielseitiges Edge-Modell mit multimodaler Intelligenz für Text, Bild und Audio

4.5B (8B mit Embeddings)

Details ansehen

Gemma 2

Googles Open-Source-Modell — solider Allrounder in 9B und 27B

9B 27B

Details ansehen

Gemma 4 E2B

Kompaktes multimodales Edge-Modell mit Text-, Bild- und Audio-Verständnis

2.3B (5.1B mit Embeddings)

Details ansehen

War diese Übersicht hilfreich?