Gemma 4 lokal installieren: Googles bestes Open-Source-Modell auf dem eigenen PC — Schritt für Schritt

Gemma 4 lokal installieren: Googles bestes Open-Source-Modell auf dem eigenen PC — Schritt für Schritt

Google hat mit Gemma 4 ein Modell veröffentlicht, das in Benchmarks Modelle schlägt, die zehnmal größer sind — und es läuft kostenlos auf deinem eigenen Rechner. Apache-2.0-Lizenz, 256.000 Token Kontext, nativ multimodal, 140 Sprachen inklusive Deutsch. Hier ist die komplette Anleitung: Von der Installation bis zum ersten Chat — in unter 15 Minuten.

Was ist Gemma 4?

Gemma 4 ist Googles neueste Open-Source-Modellfamilie, veröffentlicht am 2. April 2026 und aufgebaut auf der Gemini-3-Forschung. Es gibt vier Varianten:

ModellParameterAktivVRAM (Q4)Besonderheit
E2B5,1B2,3B~1 GBLäuft auf Smartphones, Audio-Input
E4B8B4,5B~2,4 GBBester Einstieg, multimodal + Audio
26B MoE25,2B3,8B~18 GBUnser Favorit! MoE = extrem schnell
31B Dense30,7B30,7B~20 GBHöchste Qualität, Platz 3 weltweit

Das 26B-MoE-Modell ist der Star: 25,2 Milliarden Parameter gesamt, aber dank Mixture-of-Experts-Architektur sind nur 3,8 Milliarden gleichzeitig aktiv. Das Ergebnis: 129 Tokens pro Sekunde auf einer RTX 4090 — schneller als ChatGPT, komplett offline.

Schritt 1: Ollama installieren

Ollama ist die einfachste Methode, lokale KI-Modelle zu betreiben — ein Befehl genügt. Die Installation dauert 2 Minuten:

Linux

curl -fsSL https://ollama.com/install.sh | sh

macOS

brew install ollama

Windows

Lade den Installer von ollama.com/download herunter und führe ihn aus. Ollama läuft danach als Hintergrund-Service.

Schritt 2: Gemma 4 herunterladen und starten

Ein einziger Befehl — Ollama lädt das Modell automatisch herunter:

# Unsere Empfehlung: 26B MoE (17 GB Download, braucht ~18 GB VRAM)
ollama run gemma4:26b

# Für schwächere Hardware: E4B (2,4 GB VRAM reichen) ollama run gemma4:e4b

# Für maximale Qualität: 31B Dense (braucht ~20 GB VRAM, passt gerade auf RTX 3090) ollama run gemma4:31b

# Für Smartphones und Raspberry Pi: E2B ollama run gemma4:e2b

Nach dem Download startet sofort ein Chat. Tippe deine Frage ein — auf Deutsch, Englisch oder einer der 140 unterstützten Sprachen.

Schritt 3: Welche Hardware brauchst du?

ModellMin. VRAMEmpfohlene GPUGeschwindigkeit
E2B1 GBJede GPU / nur CPUSehr schnell
E4B2,4 GBRTX 3060 / M1 MacSchnell
26B MoE18 GB (Q4)RTX 3090 / RTX 407064-129 tok/s
31B Dense20 GB (Q4)RTX 3090 / RTX 409030-38 tok/s

Unser Tipp: Das 26B-MoE-Modell in Q4-Quantisierung ist der Sweet Spot — es braucht ~18 GB VRAM und generiert 64-129 Tokens pro Sekunde. Eine RTX 3090 mit 24 GB ist ideal — auch eine RTX 4070 Ti Super mit 16 GB schafft es knapp. Für die beste Preis-Leistung empfehlen wir eine gebrauchte RTX 3090 für ~1.000 EUR.

Benchmarks: Wie gut ist Gemma 4 wirklich?

Gemma 4 schlägt in mehreren Benchmarks Modelle, die deutlich größer und teurer sind:

BenchmarkGemma 4 31BGemma 4 26B MoEGPT-4o (Cloud)Qwen 3.5 27B
MMLU Pro (Wissen)85,2%82,6%88,7%86,1%
AIME 2026 (Mathe)89,2%88,3%~85%87,1%
LiveCodeBench (Code)80,0%77,1%~75%78,5%
Arena AI (Text)#3 weltweit#6 weltweit#1
Codeforces (Competitive)2150 ELO~19002050

Das 31B-Modell ist Platz 3 weltweit auf dem Arena-AI-Leaderboard — hinter nur Claude und GPT-4o. Bei Mathematik (AIME 89,2%) und Competitive Coding (Codeforces 2150 ELO) liegt Gemma 4 sogar vorne. Und das alles kostenlos, offline, auf deinem eigenen Rechner.

Praxistest: Wie gut ist Deutsch?

Gemma 4 unterstützt Deutsch nativ als eine der 35+ Kernsprachen. Im Test mit dem 26B-MoE-Modell:

    • Alltagsgespräch: Sehr gut — flüssig, grammatisch korrekt, natürlicher Sprachfluss
    • Fachtexte: Gut — versteht und generiert juristische, medizinische und technische Texte
    • Kreatives Schreiben: Solide — Geschichten und Gedichte sind brauchbar, aber nicht auf Muttersprachler-Niveau
    • Code-Kommentare auf Deutsch: Funktioniert, aber der Kontext-Switch Deutsch↔Code kann holprig sein

    Einschätzung: Für 90% der Anwendungsfälle reicht die Deutsch-Qualität vollkommen aus. Wer perfektes Deutsch braucht, sollte das 31B-Dense-Modell statt des 26B-MoE wählen — es liefert merklich bessere Texte, ist aber langsamer.

    Bonus: ChatGPT-Oberfläche mit Open WebUI

    Ollama allein bietet nur ein Terminal. Für eine komfortable Chat-Oberfläche wie ChatGPT empfehlen wir Open WebUI — kostenlos, Open Source, 124.000 GitHub-Stars:

    # Docker-Container starten (ein Befehl!)
    docker run -d 
      --name open-webui 
      -p 3000:8080 
      -v open-webui:/app/backend/data 
      --add-host=host.docker.internal:host-gateway 
      -e OLLAMA_BASE_URL=http://host.docker.internal:11434 
      --restart always 
      ghcr.io/open-webui/open-webui:main

    Danach öffnest du http://localhost:3000 im Browser — fertig. Du hast eine vollwertige ChatGPT-ähnliche Oberfläche mit Bildanalyse per Drag-and-Drop, Chat-Historie und mehreren Modellen parallel.

    Multimodal: Bilder analysieren

    Alle Gemma-4-Varianten können Bilder verstehen — ohne Zusatz-Plugin:

    • Fotos beschreiben: „Was siehst du auf diesem Bild?"
    • Dokumente/PDFs lesen: Screenshot hochladen, Inhalt extrahieren
    • Charts analysieren: Diagramme und Grafiken interpretieren
    • OCR: Text aus Bildern erkennen — auch Handschrift
    • UI-Analyse: Screenshots von Apps oder Websites beschreiben

    Die E2B- und E4B-Varianten können zusätzlich Audio verarbeiten — Sprachnachrichten transkribieren und analysieren.

    Function Calling: Gemma 4 als Agent

    Gemma 4 unterstützt natives Function Calling — das Modell kann eigenständig Tools aufrufen. Damit lassen sich echte KI-Agenten bauen, die Websuchen durchführen, APIs abfragen oder Datenbanken auslesen. Die Integration funktioniert über OpenAI-kompatible JSON-Schemas oder Python-Funktionen mit Type Hints.

    DSGVO: Warum lokal der sicherste Weg ist

    Mit Gemma 4 über Ollama verlässt kein einziges Byte dein Netzwerk. Kein Cloud-Anbieter, kein Drittland-Transfer, kein Auftragsverarbeitungsvertrag nötig. Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung — auch in regulierten Branchen.

    Für Unternehmen, die unter der DSGVO und dem ab August 2026 geltenden EU AI Act arbeiten, ist Gemma 4 lokal die einfachste Compliance-Strategie. Alle unsere 93 lokalen KI-Modelle haben den DSGVO-Status „Grün".

    Welche Variante für welchen Zweck?

    AnwendungsfallEmpfohlenes ModellBefehl
    Schneller Chat, wenig HardwareE4Bollama run gemma4:e4b
    Alltags-KI, beste Preis-Leistung26B MoEollama run gemma4:26b
    Maximale Qualität, Deutsch-Texte31B Denseollama run gemma4:31b
    Smartphone / Raspberry PiE2Bollama run gemma4:e2b
    Coding-Assistent26B MoE oder 31Bollama run gemma4:26b
    Bildanalyse / OCR26B MoE oder 31Bollama run gemma4:26b

    Fazit

    Gemma 4 ist das zugänglichste High-End-KI-Modell, das es je gab. Die 26B-MoE-Variante läuft auf einer 200-Euro-Grafikkarte mit 129 Tokens pro Sekunde — schneller als ChatGPT, komplett kostenlos, 100% privat. Mit Apache 2.0 gibt es keine Lizenz-Einschränkungen, und die Benchmark-Ergebnisse sprechen für sich: Platz 3 weltweit bei Text, Spitze bei Mathe und Coding.

    In 15 Minuten hast du eine eigene KI auf dem Rechner, die Deutsch spricht, Bilder versteht und keine Daten nach draußen schickt. Besser wird's nicht.

    Nächste Schritte:

    Quellen

    1. Ollama: Gemma 4 Library — offizielle Modellseite
    2. Google DeepMind: Gemma 4 Modellbeschreibung
    3. Google Blog: Introducing Gemma 4
    4. Google AI: Gemma 4 Model Card mit Benchmark-Daten
    5. StartupHub: Gemma 4 Review mit Arena-Rankings
    6. Gemma 4 Guide: VRAM Requirements pro Variante
    7. Gemma 4 Wiki: Inference Speed Benchmarks
    8. gewusst:KI.de: Gemma 4 Test und Bewertung (Deutsch)
    9. Google AI: Gemma 4 Function Calling Dokumentation
    10. Effloow: Gemma 4 + Ollama + Open WebUI Setup Guide

Dieser Artikel wird bei neuen Gemma-Versionen aktualisiert. Stand: April 2026. Alle Benchmarks von offiziellen Quellen, Hardware-Tests auf Standard-Consumer-GPUs.