Gemma 4 lokal installieren: Googles bestes Open-Source-Modell auf dem eigenen PC — Schritt für Schritt

Google hat mit Gemma 4 ein Modell veröffentlicht, das in Benchmarks Modelle schlägt, die zehnmal größer sind — und es läuft kostenlos auf deinem eigenen Rechner. Apache-2.0-Lizenz, 256.000 Token Kontext, nativ multimodal, 140 Sprachen inklusive Deutsch. Hier ist die komplette Anleitung: Von der Installation bis zum ersten Chat — in unter 15 Minuten.

Was ist Gemma 4?

Gemma 4 ist Googles neueste Open-Source-Modellfamilie, veröffentlicht am 2. April 2026 und aufgebaut auf der Gemini-3-Forschung. Es gibt vier Varianten:

Modell	Parameter	Aktiv	VRAM (Q4)	Besonderheit
E2B	5,1B	2,3B	~1 GB	Läuft auf Smartphones, Audio-Input
E4B	8B	4,5B	~2,4 GB	Bester Einstieg, multimodal + Audio
26B MoE	25,2B	3,8B	~18 GB	Unser Favorit! MoE = extrem schnell
31B Dense	30,7B	30,7B	~20 GB	Höchste Qualität, Platz 3 weltweit

Das 26B-MoE-Modell ist der Star: 25,2 Milliarden Parameter gesamt, aber dank Mixture-of-Experts-Architektur sind nur 3,8 Milliarden gleichzeitig aktiv. Das Ergebnis: 129 Tokens pro Sekunde auf einer RTX 4090 — schneller als ChatGPT, komplett offline.

Schritt 1: Ollama installieren

Ollama ist die einfachste Methode, lokale KI-Modelle zu betreiben — ein Befehl genügt. Die Installation dauert 2 Minuten:

Linux

curl -fsSL https://ollama.com/install.sh | sh

macOS

brew install ollama

Windows

Lade den Installer von ollama.com/download herunter und führe ihn aus. Ollama läuft danach als Hintergrund-Service.

Schritt 2: Gemma 4 herunterladen und starten

Ein einziger Befehl — Ollama lädt das Modell automatisch herunter:

# Unsere Empfehlung: 26B MoE (17 GB Download, braucht ~18 GB VRAM) ollama run gemma4:26b # Für schwächere Hardware: E4B (2,4 GB VRAM reichen) ollama run gemma4:e4b # Für maximale Qualität: 31B Dense (braucht ~20 GB VRAM, passt gerade auf RTX 3090) ollama run gemma4:31b

# Für Smartphones und Raspberry Pi: E2B ollama run gemma4:e2b

Nach dem Download startet sofort ein Chat. Tippe deine Frage ein — auf Deutsch, Englisch oder einer der 140 unterstützten Sprachen.

Schritt 3: Welche Hardware brauchst du?

Modell	Min. VRAM	Empfohlene GPU	Geschwindigkeit
E2B	1 GB	Jede GPU / nur CPU	Sehr schnell
E4B	2,4 GB	RTX 3060 / M1 Mac	Schnell
26B MoE	18 GB (Q4)	RTX 3090 / RTX 4070	64-129 tok/s
31B Dense	20 GB (Q4)	RTX 3090 / RTX 4090	30-38 tok/s

Unser Tipp: Das 26B-MoE-Modell in Q4-Quantisierung ist der Sweet Spot — es braucht ~18 GB VRAM und generiert 64-129 Tokens pro Sekunde. Eine RTX 3090 mit 24 GB ist ideal — auch eine RTX 4070 Ti Super mit 16 GB schafft es knapp. Für die beste Preis-Leistung empfehlen wir eine gebrauchte RTX 3090 für ~1.000 EUR.

Benchmarks: Wie gut ist Gemma 4 wirklich?

Gemma 4 schlägt in mehreren Benchmarks Modelle, die deutlich größer und teurer sind:

Benchmark	Gemma 4 31B	Gemma 4 26B MoE	GPT-4o (Cloud)	Qwen 3.5 27B
MMLU Pro (Wissen)	85,2%	82,6%	88,7%	86,1%
AIME 2026 (Mathe)	89,2%	88,3%	~85%	87,1%
LiveCodeBench (Code)	80,0%	77,1%	~75%	78,5%
Arena AI (Text)	#3 weltweit	#6 weltweit	#1	—
Codeforces (Competitive)	2150 ELO	—	~1900	2050

Das 31B-Modell ist Platz 3 weltweit auf dem Arena-AI-Leaderboard — hinter nur Claude und GPT-4o. Bei Mathematik (AIME 89,2%) und Competitive Coding (Codeforces 2150 ELO) liegt Gemma 4 sogar vorne. Und das alles kostenlos, offline, auf deinem eigenen Rechner.

Praxistest: Wie gut ist Deutsch?

Gemma 4 unterstützt Deutsch nativ als eine der 35+ Kernsprachen. Im Test mit dem 26B-MoE-Modell:

Alltagsgespräch: Sehr gut — flüssig, grammatisch korrekt, natürlicher Sprachfluss
Fachtexte: Gut — versteht und generiert juristische, medizinische und technische Texte
Kreatives Schreiben: Solide — Geschichten und Gedichte sind brauchbar, aber nicht auf Muttersprachler-Niveau
Code-Kommentare auf Deutsch: Funktioniert, aber der Kontext-Switch Deutsch↔Code kann holprig sein

Einschätzung: Für 90% der Anwendungsfälle reicht die Deutsch-Qualität vollkommen aus. Wer perfektes Deutsch braucht, sollte das 31B-Dense-Modell statt des 26B-MoE wählen — es liefert merklich bessere Texte, ist aber langsamer.

Bonus: ChatGPT-Oberfläche mit Open WebUI

Ollama allein bietet nur ein Terminal. Für eine komfortable Chat-Oberfläche wie ChatGPT empfehlen wir Open WebUI — kostenlos, Open Source, 124.000 GitHub-Stars:

# Docker-Container starten (ein Befehl!)
docker run -d 
  --name open-webui 
  -p 3000:8080 
  -v open-webui:/app/backend/data 
  --add-host=host.docker.internal:host-gateway 
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 
  --restart always 
  ghcr.io/open-webui/open-webui:main

Danach öffnest du http://localhost:3000 im Browser — fertig. Du hast eine vollwertige ChatGPT-ähnliche Oberfläche mit Bildanalyse per Drag-and-Drop, Chat-Historie und mehreren Modellen parallel.

Multimodal: Bilder analysieren

Alle Gemma-4-Varianten können Bilder verstehen — ohne Zusatz-Plugin:

Fotos beschreiben: „Was siehst du auf diesem Bild?"
Dokumente/PDFs lesen: Screenshot hochladen, Inhalt extrahieren
Charts analysieren: Diagramme und Grafiken interpretieren
OCR: Text aus Bildern erkennen — auch Handschrift
UI-Analyse: Screenshots von Apps oder Websites beschreiben

Die E2B- und E4B-Varianten können zusätzlich Audio verarbeiten — Sprachnachrichten transkribieren und analysieren.

Function Calling: Gemma 4 als Agent

Gemma 4 unterstützt natives Function Calling — das Modell kann eigenständig Tools aufrufen. Damit lassen sich echte KI-Agenten bauen, die Websuchen durchführen, APIs abfragen oder Datenbanken auslesen. Die Integration funktioniert über OpenAI-kompatible JSON-Schemas oder Python-Funktionen mit Type Hints.

DSGVO: Warum lokal der sicherste Weg ist

Mit Gemma 4 über Ollama verlässt kein einziges Byte dein Netzwerk. Kein Cloud-Anbieter, kein Drittland-Transfer, kein Auftragsverarbeitungsvertrag nötig. Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung — auch in regulierten Branchen.

Für Unternehmen, die unter der DSGVO und dem ab August 2026 geltenden EU AI Act arbeiten, ist Gemma 4 lokal die einfachste Compliance-Strategie. Alle unsere 93 lokalen KI-Modelle haben den DSGVO-Status „Grün".

Welche Variante für welchen Zweck?

Anwendungsfall	Empfohlenes Modell	Befehl
Schneller Chat, wenig Hardware	E4B	`ollama run gemma4:e4b`
Alltags-KI, beste Preis-Leistung	26B MoE	`ollama run gemma4:26b`
Maximale Qualität, Deutsch-Texte	31B Dense	`ollama run gemma4:31b`
Smartphone / Raspberry Pi	E2B	`ollama run gemma4:e2b`
Coding-Assistent	26B MoE oder 31B	`ollama run gemma4:26b`
Bildanalyse / OCR	26B MoE oder 31B	`ollama run gemma4:26b`

Fazit

Gemma 4 ist das zugänglichste High-End-KI-Modell, das es je gab. Die 26B-MoE-Variante läuft auf einer 200-Euro-Grafikkarte mit 129 Tokens pro Sekunde — schneller als ChatGPT, komplett kostenlos, 100% privat. Mit Apache 2.0 gibt es keine Lizenz-Einschränkungen, und die Benchmark-Ergebnisse sprechen für sich: Platz 3 weltweit bei Text, Spitze bei Mathe und Coding.

In 15 Minuten hast du eine eigene KI auf dem Rechner, die Deutsch spricht, Bilder versteht und keine Daten nach draußen schickt. Besser wird's nicht.

Nächste Schritte:

Quellen

Dieser Artikel wird bei neuen Gemma-Versionen aktualisiert. Stand: April 2026. Alle Benchmarks von offiziellen Quellen, Hardware-Tests auf Standard-Consumer-GPUs.

---

Quellen:

The Decoder
heise online: Künstliche Intelligenz
t3n Magazin
Offizielle Ankündigungen der genannten Unternehmen

Gemma 4 lokal installieren: Googles bestes Open-Source-Modell auf dem eigenen PC — Schritt für Schritt

Was ist Gemma 4?

Schritt 1: Ollama installieren

Linux

macOS

Windows

Schritt 2: Gemma 4 herunterladen und starten

Schritt 3: Welche Hardware brauchst du?

Benchmarks: Wie gut ist Gemma 4 wirklich?

Praxistest: Wie gut ist Deutsch?

Bonus: ChatGPT-Oberfläche mit Open WebUI

Multimodal: Bilder analysieren

Function Calling: Gemma 4 als Agent

DSGVO: Warum lokal der sicherste Weg ist

Welche Variante für welchen Zweck?

Fazit

Quellen

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

Was ist Gemma 4?

Schritt 1: Ollama installieren

Linux

macOS

Windows

Schritt 2: Gemma 4 herunterladen und starten

Schritt 3: Welche Hardware brauchst du?

Benchmarks: Wie gut ist Gemma 4 wirklich?

Praxistest: Wie gut ist Deutsch?

Bonus: ChatGPT-Oberfläche mit Open WebUI

Multimodal: Bilder analysieren

Function Calling: Gemma 4 als Agent

DSGVO: Warum lokal der sicherste Weg ist

Welche Variante für welchen Zweck?

Fazit

Quellen

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

KI-Tool der Woche