Tutorial Anfänger ~15 Minuten

Ollama + Open WebUI — Eigene ChatGPT-Alternative in 10 Minuten

Ollama Lokale KI-Modelle direkt auf dem eigenen Rechner ausführen

Warum eine eigene KI betreiben?

Jedes Mal, wenn du ChatGPT, Claude oder Gemini nutzt, verlassen deine Daten dein Netzwerk. Jede Frage, jeder Text, jede Idee landet auf fremden Servern — oft in den USA, oft ohne klare Löschfristen. Für Unternehmen ein DSGVO-Albtraum, für Privatpersonen ein Datenschutz-Risiko.

Die Lösung: Eigene KI, eigene Hardware, null Cloud. Mit Ollama und Open WebUI bekommst du eine ChatGPT-ähnliche Oberfläche, die komplett auf deinem Rechner läuft. Die Modelle sind Open Source, die Qualität ist erstaunlich gut — und du zahlst 0 € pro Monat statt 20 € für ChatGPT Plus.

In dieser Anleitung zeigen wir dir Schritt für Schritt, wie du in unter 15 Minuten deine eigene KI-Instanz aufsetzt. Keine Vorkenntnisse nötig, keine Kreditkarte, kein Abo.

1

Was ist Ollama und warum lokal?

Ollama ist ein kostenloses Open-Source-Tool, das große Sprachmodelle (LLMs) direkt auf deinem Computer ausführt. Statt deine Daten an OpenAI oder Google zu senden, läuft alles lokal auf deiner Hardware.

Vorteile gegenüber Cloud-KI:

EigenschaftCloud (ChatGPT)Lokal (Ollama)
DatenschutzDaten auf US-ServernDaten bleiben bei dir
DSGVOProblematisch✅ Konform
Kosten20 €/Monat (Plus)0 € (nur Strom)
Internet nötig?Ja, immerNein, 100% offline
ZensurVom Anbieter gesteuertDu entscheidest
GeschwindigkeitAbhängig von ServerlastAbhängig von deiner Hardware

Open WebUI gibt dir dazu eine hübsche Chat-Oberfläche im Browser — fast identisch zu ChatGPT, aber auf deinem eigenen Rechner.

Tipp: Ollama unterstützt über 100 verschiedene Modelle — von winzigen 1B-Modellen für schwache Hardware bis zu riesigen 70B-Modellen für Server.
2

Systemanforderungen prüfen

Bevor du loslegst, prüfe ob dein System die Mindestanforderungen erfüllt. Die gute Nachricht: Selbst ein 5 Jahre alter Laptop reicht für kleine Modelle!

Mindestanforderungen nach Modellgröße:

ModellParameterRAM (min.)VRAM (GPU)Festplatte
Llama 3.2 1B1 Mrd.4 GBnicht nötig1,3 GB
Llama 3.2 3B3 Mrd.6 GB4 GB2,0 GB
Llama 3.1 8B8 Mrd.8 GB6 GB4,7 GB
Mistral 7B7 Mrd.8 GB6 GB4,1 GB
Gemma 2 9B9 Mrd.10 GB8 GB5,4 GB
Llama 3.3 70B70 Mrd.48 GB48 GB40 GB

Betriebssystem-Kompatibilität:

  • Windows 10/11 (64-Bit)
  • macOS 12 Monterey oder neuer (Intel & Apple Silicon)
  • Linux (Ubuntu 20.04+, Debian 11+, Fedora 36+)
  • GPU-Support:

  • NVIDIA: Alle GPUs ab GTX 1060 (CUDA)
  • AMD: Radeon RX 6000+ (ROCm, nur Linux)
  • Apple Silicon: M1/M2/M3/M4 (Metal, sehr gut optimiert!)
  • Keine GPU? Kein Problem — Ollama läuft auch auf der CPU, nur langsamer.
Tipp: Apple Silicon (M1-M4) ist überraschend gut für lokale KI! Ein MacBook Air M2 mit 16 GB RAM schafft Llama 3.1 8B mit ~30 Tokens/Sekunde.
3

Ollama installieren

Windows

1. Lade den Installer von der offiziellen Webseite herunter: ollama.com/download 2. Führe die .exe-Datei aus und folge dem Installer 3. Alternativ via PowerShell:

winget install Ollama.Ollama

macOS

brew install ollama

Oder lade die App von ollama.com/download herunter.

Linux (Ubuntu/Debian/Fedora)

Ein einziger Befehl — kopiere ihn ins Terminal:

curl -fsSL https://ollama.com/install.sh | sh

Installation prüfen

Nach der Installation in einem neuen Terminal:

ollama --version

Du solltest eine Versionsnummer sehen (z.B. ollama version 0.6.x).

Ollama-Dienst starten

Auf Windows und macOS startet Ollama automatisch. Auf Linux:

sudo systemctl start ollama
sudo systemctl enable ollama  # Autostart aktivieren

Prüfe ob der Dienst läuft:

sudo systemctl status ollama
Tipp: Auf Linux läuft Ollama als systemd-Service im Hintergrund. Du kannst ihn jederzeit mit 'sudo systemctl stop ollama' beenden.
4

Erstes Modell herunterladen

Jetzt laden wir dein erstes KI-Modell herunter. Wir empfehlen Llama 3.1 8B als Einstieg — es ist das beste Verhältnis aus Qualität und Geschwindigkeit.

ollama pull llama3.1:8b

Der Download ist ca. 4,7 GB groß. Je nach Internetverbindung dauert das 2-10 Minuten.

Weitere empfehlenswerte Modelle:

# Kleines, schnelles Modell (ideal für schwache Hardware)
ollama pull llama3.2:3b

# Sehr gutes deutsches Sprachverständnis ollama pull mistral:7b

# Google's kompaktes Modell ollama pull gemma2:9b

# Für Code-Aufgaben ollama pull codellama:7b

# Multimodal (versteht auch Bilder!) ollama pull llama3.2-vision:11b

Installierte Modelle anzeigen:

ollama list

Modellgrößen auf der Festplatte:

ModellDownload-Größe
llama3.2:3b2,0 GB
llama3.1:8b4,7 GB
mistral:7b4,1 GB
gemma2:9b5,4 GB
codellama:7b3,8 GB
llama3.2-vision:11b7,9 GB

Tipp: Du kannst jederzeit Modelle löschen mit 'ollama rm modellname' um Speicherplatz freizugeben.
5

Ollama im Terminal testen

Bevor wir die Web-Oberfläche einrichten, testen wir Ollama direkt im Terminal:

ollama run llama3.1:8b

Du landest in einem interaktiven Chat. Teste es:

>>> Erkläre mir Quantencomputer in 3 Sätzen, als wäre ich 10 Jahre alt.

Stell dir vor, ein normaler Computer ist wie ein Lichtschalter — er kann nur AN oder AUS sein. Ein Quantencomputer ist wie ein magischer Schalter, der gleichzeitig AN und AUS sein kann! Dadurch kann er ganz viele Rechnungen auf einmal machen, statt eine nach der anderen.

>>> /bye

Ollama als API nutzen

Ollama startet automatisch einen lokalen API-Server auf Port 11434:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Was ist die Hauptstadt von Deutschland?",
  "stream": false
}'

Performance prüfen

Während ein Modell läuft, zeige die Auslastung:

ollama ps

Das zeigt dir, welche Modelle geladen sind, wieviel RAM/VRAM sie nutzen und ob GPU oder CPU verwendet wird.

Tipp: Tippe '/bye' um den Chat zu beenden. Mit '/set parameter temperature 0.1' machst du die Antworten präziser, mit '1.5' kreativer.
6

Docker installieren (für Open WebUI)

Open WebUI wird am einfachsten per Docker installiert. Falls du Docker noch nicht hast:

Windows

1. Lade Docker Desktop herunter 2. Installiere und starte Docker Desktop 3. Warte bis das Docker-Symbol in der Taskleiste grün wird

macOS

brew install --cask docker

Oder lade Docker Desktop von docker.com herunter.

Linux (Ubuntu/Debian)

# Docker installieren
curl -fsSL https://get.docker.com | sh

# Deinen User zur Docker-Gruppe hinzufügen (wichtig!) sudo usermod -aG docker $USER

# Ausloggen und wieder einloggen, damit die Gruppenänderung wirkt # Oder in der aktuellen Session: newgrp docker

Docker prüfen

docker --version
docker run hello-world

Wenn du die Nachricht "Hello from Docker!" siehst, funktioniert alles.

Tipp: Auf Linux brauchst du kein Docker Desktop — die CLI-Version reicht völlig. Das spart Ressourcen.
7

Open WebUI installieren und starten

Jetzt kommt der spannende Teil — ein einziger Befehl und du hast deine eigene ChatGPT-Oberfläche!

Standard-Installation (Ollama läuft auf dem gleichen Rechner):

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Was macht dieser Befehl?

  • -d → Läuft im Hintergrund
  • -p 3000:8080 → Erreichbar unter Port 3000
  • --add-host=... → Verbindung zu Ollama auf dem Host
  • -v open-webui:/app/backend/data → Daten bleiben nach Neustart erhalten
  • --restart always → Startet automatisch nach Reboot

Variante mit GPU-Support (NVIDIA):

docker run -d \
  -p 3000:8080 \
  --gpus all \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:cuda

Variante: Ollama + Open WebUI in einem Container:

docker run -d \
  -p 3000:8080 \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:ollama

Öffne die Weboberfläche:

Warte 30 Sekunden, dann öffne im Browser: http://localhost:3000

Tipp: Falls Port 3000 belegt ist, ändere '-p 3000:8080' zu z.B. '-p 8080:8080' und öffne dann http://localhost:8080.
8

Open WebUI einrichten

Beim ersten Öffnen von http://localhost:3000 musst du einen Admin-Account erstellen:

1. Account erstellen

  • Klicke auf "Sign up"
  • Gib Name, E-Mail und Passwort ein
  • Der erste Account wird automatisch Admin
  • 2. Modell auswählen

  • Oben im Chat-Fenster siehst du ein Dropdown-Menü
  • Wähle dein heruntergeladenes Modell (z.B. llama3.1:8b)
  • Falls kein Modell angezeigt wird: Prüfe ob Ollama läuft (ollama ps)
  • 3. System-Prompt setzen (optional aber empfohlen)

  • Gehe zu Einstellungen → Allgemein
  • Unter "System Prompt" kannst du eine Standard-Anweisung setzen:
  • Du bist ein hilfreicher KI-Assistent. Antworte immer auf Deutsch,
    präzise und gut strukturiert. Verwende Markdown-Formatierung.

    4. Weitere Modelle über die UI herunterladen

  • Gehe zu Einstellungen → Modelle
  • Gib einen Modellnamen ein (z.B. mistral:7b) und klicke auf Download
  • Open WebUI lädt das Modell automatisch über Ollama herunter
  • 5. Dokumente hochladen (RAG)

  • Im Chat kannst du per Büroklammer-Symbol Dokumente hochladen
  • Die KI kann dann Fragen über den Inhalt beantworten
  • Unterstützt: PDF, TXT, DOCX, CSV und mehr
Tipp: Erstelle verschiedene Chats für verschiedene Themen — genau wie bei ChatGPT. Der Chatverlauf wird lokal gespeichert.
9

Welches Modell für welchen Zweck?

Nicht jedes Modell ist für jede Aufgabe ideal. Hier unsere Empfehlungen:

Modell-Empfehlungen nach Anwendungsfall:

AufgabeEmpfohlenes ModellBefehlQualität
Allgemeiner ChatLlama 3.1 8Bollama pull llama3.1:8b⭐⭐⭐⭐
Deutsche TexteMistral 7Bollama pull mistral:7b⭐⭐⭐⭐
Code schreibenCodeLlama 7Bollama pull codellama:7b⭐⭐⭐⭐
Bilder beschreibenLLaVA 13Bollama pull llava:13b⭐⭐⭐⭐
Leichte AufgabenGemma 2 2Bollama pull gemma2:2b⭐⭐⭐
Schwache HardwareLlama 3.2 1Bollama pull llama3.2:1b⭐⭐
Maximale QualitätLlama 3.3 70Bollama pull llama3.3:70b⭐⭐⭐⭐⭐

Mehrere Modelle gleichzeitig nutzen

In Open WebUI kannst du das Modell pro Chat wechseln. Tipp:

1. Erstelle einen Chat mit Llama 3.1 für allgemeine Fragen 2. Erstelle einen separaten Chat mit CodeLlama für Programmierung 3. Nutze Mistral für Texte auf Deutsch

Eigenes Modelfile erstellen

Erstelle spezialisierte Modelle mit benutzerdefinierten System-Prompts:

# Erstelle eine Datei namens "DeutscherAssistent"
cat << 'EOF' > Modelfile
FROM llama3.1:8b
SYSTEM "Du bist ein deutscher KI-Assistent. Antworte ausschließlich auf Deutsch. Sei präzise, höflich und verwende korrekte Grammatik."
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

# Erstelle das Modell ollama create deutsch-assistent -f Modelfile

# Teste es ollama run deutsch-assistent

Tipp: Mistral 7B hat ein überraschend gutes deutsches Sprachverständnis — oft besser als Llama bei deutschen Texten.
10

Profi-Tipps und Kosten-Vergleich

GPU-Offloading aktivieren

Ollama erkennt deine GPU automatisch. Prüfe ob GPU genutzt wird:

ollama ps
# Zeigt an: NAME | SIZE | PROCESSOR
# "100% GPU" = perfekt, "100% CPU" = keine GPU erkannt

Bei NVIDIA-GPUs stelle sicher, dass die aktuellen Treiber installiert sind:

nvidia-smi  # Zeigt GPU-Info und Treiberversion

Ollama im Netzwerk freigeben

Standardmäßig ist Ollama nur lokal erreichbar. Für LAN-Zugriff:

# Linux: /etc/systemd/system/ollama.service bearbeiten
sudo systemctl edit ollama

# Füge hinzu: # [Service] # Environment="OLLAMA_HOST=0.0.0.0"

sudo systemctl restart ollama

Open WebUI updaten

docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui
docker rm open-webui
# Dann den docker run Befehl von Schritt 7 erneut ausführen

Deine Daten bleiben erhalten, da sie im Docker Volume gespeichert sind!

Kosten-Vergleich: Lokal vs. Cloud

ChatGPT PlusClaude ProOllama (lokal)
Monatliche Kosten20 €20 €0 €
Stromkosten (geschätzt)~3-5 €/Monat
Jahreskosten240 €240 €~40-60 €
Datenschutz❌ USA-Server❌ USA-Server✅ Lokal
Offline nutzbar
Unbegrenzte NutzungLimits vorhandenLimits vorhanden✅ Unbegrenzt

Stromkosten basieren auf ~50W Verbrauch, 4h/Tag, 0,30 €/kWh (deutscher Durchschnitt)

Tipp: Ein Raspberry Pi 5 mit 8 GB RAM kann tatsächlich Llama 3.2 1B ausführen — langsam, aber es funktioniert als immer-verfügbarer Assistent!

Nächste Schritte

Du hast jetzt deine eigene KI-Instanz — herzlichen Glückwunsch! Als nächstes kannst du:

  • RAG einrichten: Lade eigene Dokumente hoch und lass die KI darüber Fragen beantworten (Open WebUI unterstützt das nativ)
  • Eigene Modelfiles erstellen: Passe Modelle mit System-Prompts für spezifische Aufgaben an
  • Im Netzwerk teilen: Mach deine Instanz für Kollegen im LAN verfügbar
  • Community: Teile deine Erfahrungen im Open WebUI Discord oder auf r/ollama
Hast du Fragen oder Probleme? Schreib uns — wir helfen gerne weiter!