Google hat mit Gemma 4 ein Modell veröffentlicht, das in Benchmarks Modelle schlägt, die zehnmal größer sind — und es läuft kostenlos auf deinem eigenen Rechner. Apache-2.0-Lizenz, 256.000 Token Kontext, nativ multimodal, 140 Sprachen inklusive Deutsch. Hier ist die komplette Anleitung: Von der Installation bis zum ersten Chat — in unter 15 Minuten.
Was ist Gemma 4?
Gemma 4 ist Googles neueste Open-Source-Modellfamilie, veröffentlicht am 2. April 2026 und aufgebaut auf der Gemini-3-Forschung. Es gibt vier Varianten:
| Modell | Parameter | Aktiv | VRAM (Q4) | Besonderheit |
|---|---|---|---|---|
| E2B | 5,1B | 2,3B | ~1 GB | Läuft auf Smartphones, Audio-Input |
| E4B | 8B | 4,5B | ~2,4 GB | Bester Einstieg, multimodal + Audio |
| 26B MoE | 25,2B | 3,8B | ~18 GB | Unser Favorit! MoE = extrem schnell |
| 31B Dense | 30,7B | 30,7B | ~20 GB | Höchste Qualität, Platz 3 weltweit |
Das 26B-MoE-Modell ist der Star: 25,2 Milliarden Parameter gesamt, aber dank Mixture-of-Experts-Architektur sind nur 3,8 Milliarden gleichzeitig aktiv. Das Ergebnis: 129 Tokens pro Sekunde auf einer RTX 4090 — schneller als ChatGPT, komplett offline.
Schritt 1: Ollama installieren
Ollama ist die einfachste Methode, lokale KI-Modelle zu betreiben — ein Befehl genügt. Die Installation dauert 2 Minuten:
Linux
curl -fsSL https://ollama.com/install.sh | shmacOS
brew install ollamaWindows
Lade den Installer von ollama.com/download herunter und führe ihn aus. Ollama läuft danach als Hintergrund-Service.
Schritt 2: Gemma 4 herunterladen und starten
Ein einziger Befehl — Ollama lädt das Modell automatisch herunter:
# Unsere Empfehlung: 26B MoE (17 GB Download, braucht ~18 GB VRAM)
ollama run gemma4:26b# Für schwächere Hardware: E4B (2,4 GB VRAM reichen)
ollama run gemma4:e4b
# Für maximale Qualität: 31B Dense (braucht ~20 GB VRAM, passt gerade auf RTX 3090)
ollama run gemma4:31b
# Für Smartphones und Raspberry Pi: E2B
ollama run gemma4:e2b
Nach dem Download startet sofort ein Chat. Tippe deine Frage ein — auf Deutsch, Englisch oder einer der 140 unterstützten Sprachen.
Schritt 3: Welche Hardware brauchst du?
| Modell | Min. VRAM | Empfohlene GPU | Geschwindigkeit |
|---|---|---|---|
| E2B | 1 GB | Jede GPU / nur CPU | Sehr schnell |
| E4B | 2,4 GB | RTX 3060 / M1 Mac | Schnell |
| 26B MoE | 18 GB (Q4) | RTX 3090 / RTX 4070 | 64-129 tok/s |
| 31B Dense | 20 GB (Q4) | RTX 3090 / RTX 4090 | 30-38 tok/s |
Unser Tipp: Das 26B-MoE-Modell in Q4-Quantisierung ist der Sweet Spot — es braucht ~18 GB VRAM und generiert 64-129 Tokens pro Sekunde. Eine RTX 3090 mit 24 GB ist ideal — auch eine RTX 4070 Ti Super mit 16 GB schafft es knapp. Für die beste Preis-Leistung empfehlen wir eine gebrauchte RTX 3090 für ~1.000 EUR.
Benchmarks: Wie gut ist Gemma 4 wirklich?
Gemma 4 schlägt in mehreren Benchmarks Modelle, die deutlich größer und teurer sind:
| Benchmark | Gemma 4 31B | Gemma 4 26B MoE | GPT-4o (Cloud) | Qwen 3.5 27B |
|---|---|---|---|---|
| MMLU Pro (Wissen) | 85,2% | 82,6% | 88,7% | 86,1% |
| AIME 2026 (Mathe) | 89,2% | 88,3% | ~85% | 87,1% |
| LiveCodeBench (Code) | 80,0% | 77,1% | ~75% | 78,5% |
| Arena AI (Text) | #3 weltweit | #6 weltweit | #1 | — |
| Codeforces (Competitive) | 2150 ELO | — | ~1900 | 2050 |
Das 31B-Modell ist Platz 3 weltweit auf dem Arena-AI-Leaderboard — hinter nur Claude und GPT-4o. Bei Mathematik (AIME 89,2%) und Competitive Coding (Codeforces 2150 ELO) liegt Gemma 4 sogar vorne. Und das alles kostenlos, offline, auf deinem eigenen Rechner.
Praxistest: Wie gut ist Deutsch?
Gemma 4 unterstützt Deutsch nativ als eine der 35+ Kernsprachen. Im Test mit dem 26B-MoE-Modell:
- Alltagsgespräch: Sehr gut — flüssig, grammatisch korrekt, natürlicher Sprachfluss
- Fachtexte: Gut — versteht und generiert juristische, medizinische und technische Texte
- Kreatives Schreiben: Solide — Geschichten und Gedichte sind brauchbar, aber nicht auf Muttersprachler-Niveau
- Code-Kommentare auf Deutsch: Funktioniert, aber der Kontext-Switch Deutsch↔Code kann holprig sein
Einschätzung: Für 90% der Anwendungsfälle reicht die Deutsch-Qualität vollkommen aus. Wer perfektes Deutsch braucht, sollte das 31B-Dense-Modell statt des 26B-MoE wählen — es liefert merklich bessere Texte, ist aber langsamer.
Bonus: ChatGPT-Oberfläche mit Open WebUI
Ollama allein bietet nur ein Terminal. Für eine komfortable Chat-Oberfläche wie ChatGPT empfehlen wir Open WebUI — kostenlos, Open Source, 124.000 GitHub-Stars:
# Docker-Container starten (ein Befehl!)
docker run -d
--name open-webui
-p 3000:8080
-v open-webui:/app/backend/data
--add-host=host.docker.internal:host-gateway
-e OLLAMA_BASE_URL=http://host.docker.internal:11434
--restart always
ghcr.io/open-webui/open-webui:mainDanach öffnest du http://localhost:3000 im Browser — fertig. Du hast eine vollwertige ChatGPT-ähnliche Oberfläche mit Bildanalyse per Drag-and-Drop, Chat-Historie und mehreren Modellen parallel.
Multimodal: Bilder analysieren
Alle Gemma-4-Varianten können Bilder verstehen — ohne Zusatz-Plugin:
- Fotos beschreiben: „Was siehst du auf diesem Bild?"
- Dokumente/PDFs lesen: Screenshot hochladen, Inhalt extrahieren
- Charts analysieren: Diagramme und Grafiken interpretieren
- OCR: Text aus Bildern erkennen — auch Handschrift
- UI-Analyse: Screenshots von Apps oder Websites beschreiben
Die E2B- und E4B-Varianten können zusätzlich Audio verarbeiten — Sprachnachrichten transkribieren und analysieren.
Function Calling: Gemma 4 als Agent
Gemma 4 unterstützt natives Function Calling — das Modell kann eigenständig Tools aufrufen. Damit lassen sich echte KI-Agenten bauen, die Websuchen durchführen, APIs abfragen oder Datenbanken auslesen. Die Integration funktioniert über OpenAI-kompatible JSON-Schemas oder Python-Funktionen mit Type Hints.
DSGVO: Warum lokal der sicherste Weg ist
Mit Gemma 4 über Ollama verlässt kein einziges Byte dein Netzwerk. Kein Cloud-Anbieter, kein Drittland-Transfer, kein Auftragsverarbeitungsvertrag nötig. Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung — auch in regulierten Branchen.
Für Unternehmen, die unter der DSGVO und dem ab August 2026 geltenden EU AI Act arbeiten, ist Gemma 4 lokal die einfachste Compliance-Strategie. Alle unsere 93 lokalen KI-Modelle haben den DSGVO-Status „Grün".
Welche Variante für welchen Zweck?
| Anwendungsfall | Empfohlenes Modell | Befehl |
|---|---|---|
| Schneller Chat, wenig Hardware | E4B | ollama run gemma4:e4b |
| Alltags-KI, beste Preis-Leistung | 26B MoE | ollama run gemma4:26b |
| Maximale Qualität, Deutsch-Texte | 31B Dense | ollama run gemma4:31b |
| Smartphone / Raspberry Pi | E2B | ollama run gemma4:e2b |
| Coding-Assistent | 26B MoE oder 31B | ollama run gemma4:26b |
| Bildanalyse / OCR | 26B MoE oder 31B | ollama run gemma4:26b |
Fazit
Gemma 4 ist das zugänglichste High-End-KI-Modell, das es je gab. Die 26B-MoE-Variante läuft auf einer 200-Euro-Grafikkarte mit 129 Tokens pro Sekunde — schneller als ChatGPT, komplett kostenlos, 100% privat. Mit Apache 2.0 gibt es keine Lizenz-Einschränkungen, und die Benchmark-Ergebnisse sprechen für sich: Platz 3 weltweit bei Text, Spitze bei Mathe und Coding.
In 15 Minuten hast du eine eigene KI auf dem Rechner, die Deutsch spricht, Bilder versteht und keine Daten nach draußen schickt. Besser wird's nicht.
Nächste Schritte:
- Alle 93 lokalen KI-Modelle vergleichen
- GPU-Kaufberatung mit aktuellen Preisen
- RTX 3090: Der Preis-Leistungs-König für lokale KI
Quellen
- Ollama: Gemma 4 Library — offizielle Modellseite
- Google DeepMind: Gemma 4 Modellbeschreibung
- Google Blog: Introducing Gemma 4
- Google AI: Gemma 4 Model Card mit Benchmark-Daten
- StartupHub: Gemma 4 Review mit Arena-Rankings
- Gemma 4 Guide: VRAM Requirements pro Variante
- Gemma 4 Wiki: Inference Speed Benchmarks
- gewusst:KI.de: Gemma 4 Test und Bewertung (Deutsch)
- Google AI: Gemma 4 Function Calling Dokumentation
- Effloow: Gemma 4 + Ollama + Open WebUI Setup Guide
Dieser Artikel wird bei neuen Gemma-Versionen aktualisiert. Stand: April 2026. Alle Benchmarks von offiziellen Quellen, Hardware-Tests auf Standard-Consumer-GPUs.