Tutorial Anfänger ~15 Minuten

Ollama + Open WebUI — Eigene ChatGPT-Alternative in 10 Minuten

KI-Katalog Team · 30. March 2026 · 388 Aufrufe

Ollama Lokale KI-Modelle direkt auf dem eigenen Rechner ausführen

Zum Tool Website

Warum eine eigene KI betreiben?

Jedes Mal, wenn du ChatGPT, Claude oder Gemini nutzt, verlassen deine Daten dein Netzwerk. Jede Frage, jeder Text, jede Idee landet auf fremden Servern — oft in den USA, oft ohne klare Löschfristen. Für Unternehmen ein DSGVO-Albtraum, für Privatpersonen ein Datenschutz-Risiko.

Die Lösung: Eigene KI, eigene Hardware, null Cloud. Mit Ollama und Open WebUI bekommst du eine ChatGPT-ähnliche Oberfläche, die komplett auf deinem Rechner läuft. Die Modelle sind Open Source, die Qualität ist erstaunlich gut — und du zahlst 0 € pro Monat statt 20 € für ChatGPT Plus.

In dieser Anleitung zeigen wir dir Schritt für Schritt, wie du in unter 15 Minuten deine eigene KI-Instanz aufsetzt. Keine Vorkenntnisse nötig, keine Kreditkarte, kein Abo.

Was ist Ollama und warum lokal?

Ollama ist ein kostenloses Open-Source-Tool, das große Sprachmodelle (LLMs) direkt auf deinem Computer ausführt. Statt deine Daten an OpenAI oder Google zu senden, läuft alles lokal auf deiner Hardware.

Vorteile gegenüber Cloud-KI:

Eigenschaft	Cloud (ChatGPT)	Lokal (Ollama)
Datenschutz	Daten auf US-Servern	Daten bleiben bei dir
DSGVO	Problematisch	✅ Konform
Kosten	20 €/Monat (Plus)	0 € (nur Strom)
Internet nötig?	Ja, immer	Nein, 100% offline
Zensur	Vom Anbieter gesteuert	Du entscheidest
Geschwindigkeit	Abhängig von Serverlast	Abhängig von deiner Hardware

Open WebUI gibt dir dazu eine hübsche Chat-Oberfläche im Browser — fast identisch zu ChatGPT, aber auf deinem eigenen Rechner.

Tipp: Ollama unterstützt über 100 verschiedene Modelle — von winzigen 1B-Modellen für schwache Hardware bis zu riesigen 70B-Modellen für Server.

Systemanforderungen prüfen

Bevor du loslegst, prüfe ob dein System die Mindestanforderungen erfüllt. Die gute Nachricht: Selbst ein 5 Jahre alter Laptop reicht für kleine Modelle!

Mindestanforderungen nach Modellgröße:

Modell	Parameter	RAM (min.)	VRAM (GPU)	Festplatte
Llama 3.2 1B	1 Mrd.	4 GB	nicht nötig	1,3 GB
Llama 3.2 3B	3 Mrd.	6 GB	4 GB	2,0 GB
Llama 3.1 8B	8 Mrd.	8 GB	6 GB	4,7 GB
Mistral 7B	7 Mrd.	8 GB	6 GB	4,1 GB
Gemma 2 9B	9 Mrd.	10 GB	8 GB	5,4 GB
Llama 3.3 70B	70 Mrd.	48 GB	48 GB	40 GB

Betriebssystem-Kompatibilität:

Windows 10/11 (64-Bit)
macOS 12 Monterey oder neuer (Intel & Apple Silicon)
Linux (Ubuntu 20.04+, Debian 11+, Fedora 36+)

GPU-Support:

NVIDIA: Alle GPUs ab GTX 1060 (CUDA)
AMD: Radeon RX 6000+ (ROCm, nur Linux)
Apple Silicon: M1/M2/M3/M4 (Metal, sehr gut optimiert!)
Keine GPU? Kein Problem — Ollama läuft auch auf der CPU, nur langsamer.

Tipp: Apple Silicon (M1-M4) ist überraschend gut für lokale KI! Ein MacBook Air M2 mit 16 GB RAM schafft Llama 3.1 8B mit ~30 Tokens/Sekunde.

Ollama installieren

Windows

1. Lade den Installer von der offiziellen Webseite herunter: ollama.com/download 2. Führe die .exe-Datei aus und folge dem Installer 3. Alternativ via PowerShell:

winget install Ollama.Ollama

macOS

brew install ollama

Oder lade die App von ollama.com/download herunter.

Linux (Ubuntu/Debian/Fedora)

Ein einziger Befehl — kopiere ihn ins Terminal:

curl -fsSL https://ollama.com/install.sh | sh

Installation prüfen

Nach der Installation in einem neuen Terminal:

ollama --version

Du solltest eine Versionsnummer sehen (z.B. ollama version 0.6.x).

Ollama-Dienst starten

Auf Windows und macOS startet Ollama automatisch. Auf Linux:

sudo systemctl start ollama
sudo systemctl enable ollama  # Autostart aktivieren

Prüfe ob der Dienst läuft:

sudo systemctl status ollama

Tipp: Auf Linux läuft Ollama als systemd-Service im Hintergrund. Du kannst ihn jederzeit mit 'sudo systemctl stop ollama' beenden.

Erstes Modell herunterladen

Jetzt laden wir dein erstes KI-Modell herunter. Wir empfehlen Llama 3.1 8B als Einstieg — es ist das beste Verhältnis aus Qualität und Geschwindigkeit.

ollama pull llama3.1:8b

Der Download ist ca. 4,7 GB groß. Je nach Internetverbindung dauert das 2-10 Minuten.

Weitere empfehlenswerte Modelle:

# Kleines, schnelles Modell (ideal für schwache Hardware) ollama pull llama3.2:3b # Sehr gutes deutsches Sprachverständnis ollama pull mistral:7b # Google's kompaktes Modell ollama pull gemma2:9b # Für Code-Aufgaben ollama pull codellama:7b

# Multimodal (versteht auch Bilder!) ollama pull llama3.2-vision:11b

Installierte Modelle anzeigen:

ollama list

Modellgrößen auf der Festplatte:

Modell	Download-Größe
llama3.2:3b	2,0 GB
llama3.1:8b	4,7 GB
mistral:7b	4,1 GB
gemma2:9b	5,4 GB
codellama:7b	3,8 GB
llama3.2-vision:11b	7,9 GB

Tipp: Du kannst jederzeit Modelle löschen mit 'ollama rm modellname' um Speicherplatz freizugeben.

Ollama im Terminal testen

Bevor wir die Web-Oberfläche einrichten, testen wir Ollama direkt im Terminal:

ollama run llama3.1:8b

Du landest in einem interaktiven Chat. Teste es:

>>> Erkläre mir Quantencomputer in 3 Sätzen, als wäre ich 10 Jahre alt. Stell dir vor, ein normaler Computer ist wie ein Lichtschalter — er kann nur AN oder AUS sein. Ein Quantencomputer ist wie ein magischer Schalter, der gleichzeitig AN und AUS sein kann! Dadurch kann er ganz viele Rechnungen auf einmal machen, statt eine nach der anderen.

>>> /bye

Ollama als API nutzen

Ollama startet automatisch einen lokalen API-Server auf Port 11434:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Was ist die Hauptstadt von Deutschland?",
  "stream": false
}'

Performance prüfen

Während ein Modell läuft, zeige die Auslastung:

ollama ps

Das zeigt dir, welche Modelle geladen sind, wieviel RAM/VRAM sie nutzen und ob GPU oder CPU verwendet wird.

Tipp: Tippe '/bye' um den Chat zu beenden. Mit '/set parameter temperature 0.1' machst du die Antworten präziser, mit '1.5' kreativer.

Docker installieren (für Open WebUI)

Open WebUI wird am einfachsten per Docker installiert. Falls du Docker noch nicht hast:

Windows

1. Lade Docker Desktop herunter 2. Installiere und starte Docker Desktop 3. Warte bis das Docker-Symbol in der Taskleiste grün wird

macOS

brew install --cask docker

Oder lade Docker Desktop von docker.com herunter.

Linux (Ubuntu/Debian)

# Docker installieren curl -fsSL https://get.docker.com | sh # Deinen User zur Docker-Gruppe hinzufügen (wichtig!) sudo usermod -aG docker $USER

# Ausloggen und wieder einloggen, damit die Gruppenänderung wirkt # Oder in der aktuellen Session: newgrp docker

Docker prüfen

docker --version
docker run hello-world

Wenn du die Nachricht "Hello from Docker!" siehst, funktioniert alles.

Tipp: Auf Linux brauchst du kein Docker Desktop — die CLI-Version reicht völlig. Das spart Ressourcen.

Open WebUI installieren und starten

Jetzt kommt der spannende Teil — ein einziger Befehl und du hast deine eigene ChatGPT-Oberfläche!

Standard-Installation (Ollama läuft auf dem gleichen Rechner):

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Was macht dieser Befehl?

-d → Läuft im Hintergrund
-p 3000:8080 → Erreichbar unter Port 3000
--add-host=... → Verbindung zu Ollama auf dem Host
-v open-webui:/app/backend/data → Daten bleiben nach Neustart erhalten
--restart always → Startet automatisch nach Reboot

Variante mit GPU-Support (NVIDIA):

docker run -d \
  -p 3000:8080 \
  --gpus all \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:cuda

Variante: Ollama + Open WebUI in einem Container:

docker run -d \
  -p 3000:8080 \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:ollama

Öffne die Weboberfläche:

Warte 30 Sekunden, dann öffne im Browser: http://localhost:3000

Tipp: Falls Port 3000 belegt ist, ändere '-p 3000:8080' zu z.B. '-p 8080:8080' und öffne dann http://localhost:8080.

Open WebUI einrichten

Beim ersten Öffnen von http://localhost:3000 musst du einen Admin-Account erstellen:

1. Account erstellen

Klicke auf "Sign up"
Gib Name, E-Mail und Passwort ein
Der erste Account wird automatisch Admin

2. Modell auswählen

Oben im Chat-Fenster siehst du ein Dropdown-Menü
Wähle dein heruntergeladenes Modell (z.B. llama3.1:8b)
Falls kein Modell angezeigt wird: Prüfe ob Ollama läuft (ollama ps)

3. System-Prompt setzen (optional aber empfohlen)

Gehe zu Einstellungen → Allgemein
Unter "System Prompt" kannst du eine Standard-Anweisung setzen:

Du bist ein hilfreicher KI-Assistent. Antworte immer auf Deutsch,
präzise und gut strukturiert. Verwende Markdown-Formatierung.

4. Weitere Modelle über die UI herunterladen

Gehe zu Einstellungen → Modelle
Gib einen Modellnamen ein (z.B. mistral:7b) und klicke auf Download
Open WebUI lädt das Modell automatisch über Ollama herunter

5. Dokumente hochladen (RAG)

Im Chat kannst du per Büroklammer-Symbol Dokumente hochladen
Die KI kann dann Fragen über den Inhalt beantworten
Unterstützt: PDF, TXT, DOCX, CSV und mehr

Tipp: Erstelle verschiedene Chats für verschiedene Themen — genau wie bei ChatGPT. Der Chatverlauf wird lokal gespeichert.

Welches Modell für welchen Zweck?

Nicht jedes Modell ist für jede Aufgabe ideal. Hier unsere Empfehlungen:

Modell-Empfehlungen nach Anwendungsfall:

Aufgabe	Empfohlenes Modell	Befehl	Qualität
Allgemeiner Chat	Llama 3.1 8B	`ollama pull llama3.1:8b`	⭐⭐⭐⭐
Deutsche Texte	Mistral 7B	`ollama pull mistral:7b`	⭐⭐⭐⭐
Code schreiben	CodeLlama 7B	`ollama pull codellama:7b`	⭐⭐⭐⭐
Bilder beschreiben	LLaVA 13B	`ollama pull llava:13b`	⭐⭐⭐⭐
Leichte Aufgaben	Gemma 2 2B	`ollama pull gemma2:2b`	⭐⭐⭐
Schwache Hardware	Llama 3.2 1B	`ollama pull llama3.2:1b`	⭐⭐
Maximale Qualität	Llama 3.3 70B	`ollama pull llama3.3:70b`	⭐⭐⭐⭐⭐

Mehrere Modelle gleichzeitig nutzen

In Open WebUI kannst du das Modell pro Chat wechseln. Tipp:

1. Erstelle einen Chat mit Llama 3.1 für allgemeine Fragen 2. Erstelle einen separaten Chat mit CodeLlama für Programmierung 3. Nutze Mistral für Texte auf Deutsch

Eigenes Modelfile erstellen

Erstelle spezialisierte Modelle mit benutzerdefinierten System-Prompts:

# Erstelle eine Datei namens "DeutscherAssistent" cat << 'EOF' > Modelfile FROM llama3.1:8b SYSTEM "Du bist ein deutscher KI-Assistent. Antworte ausschließlich auf Deutsch. Sei präzise, höflich und verwende korrekte Grammatik." PARAMETER temperature 0.7 PARAMETER top_p 0.9 EOF # Erstelle das Modell ollama create deutsch-assistent -f Modelfile

# Teste es ollama run deutsch-assistent

Tipp: Mistral 7B hat ein überraschend gutes deutsches Sprachverständnis — oft besser als Llama bei deutschen Texten.

Profi-Tipps und Kosten-Vergleich

GPU-Offloading aktivieren

Ollama erkennt deine GPU automatisch. Prüfe ob GPU genutzt wird:

ollama ps
# Zeigt an: NAME | SIZE | PROCESSOR
# "100% GPU" = perfekt, "100% CPU" = keine GPU erkannt

Bei NVIDIA-GPUs stelle sicher, dass die aktuellen Treiber installiert sind:

nvidia-smi  # Zeigt GPU-Info und Treiberversion

Ollama im Netzwerk freigeben

Standardmäßig ist Ollama nur lokal erreichbar. Für LAN-Zugriff:

# Linux: /etc/systemd/system/ollama.service bearbeiten sudo systemctl edit ollama # Füge hinzu: # [Service] # Environment="OLLAMA_HOST=0.0.0.0"

sudo systemctl restart ollama

Open WebUI updaten

docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui
docker rm open-webui
# Dann den docker run Befehl von Schritt 7 erneut ausführen

Deine Daten bleiben erhalten, da sie im Docker Volume gespeichert sind!

Kosten-Vergleich: Lokal vs. Cloud

	ChatGPT Plus	Claude Pro	Ollama (lokal)
Monatliche Kosten	20 €	20 €	0 €
Stromkosten (geschätzt)	—	—	~3-5 €/Monat
Jahreskosten	240 €	240 €	~40-60 €
Datenschutz	❌ USA-Server	❌ USA-Server	✅ Lokal
Offline nutzbar	❌	❌	✅
Unbegrenzte Nutzung	Limits vorhanden	Limits vorhanden	✅ Unbegrenzt

Stromkosten basieren auf ~50W Verbrauch, 4h/Tag, 0,30 €/kWh (deutscher Durchschnitt)

Tipp: Ein Raspberry Pi 5 mit 8 GB RAM kann tatsächlich Llama 3.2 1B ausführen — langsam, aber es funktioniert als immer-verfügbarer Assistent!

Nächste Schritte

Du hast jetzt deine eigene KI-Instanz — herzlichen Glückwunsch! Als nächstes kannst du:

RAG einrichten: Lade eigene Dokumente hoch und lass die KI darüber Fragen beantworten (Open WebUI unterstützt das nativ)
Eigene Modelfiles erstellen: Passe Modelle mit System-Prompts für spezifische Aufgaben an
Im Netzwerk teilen: Mach deine Instanz für Kollegen im LAN verfügbar
Community: Teile deine Erfahrungen im Open WebUI Discord oder auf r/ollama

Hast du Fragen oder Probleme? Schreib uns — wir helfen gerne weiter!

Tags: Ollama Open WebUI Selbst hosten LLM lokal DSGVO Docker ChatGPT-Alternative

Warum eine eigene KI betreiben?

Was ist Ollama und warum lokal?

Vorteile gegenüber Cloud-KI:

Systemanforderungen prüfen

Mindestanforderungen nach Modellgröße:

Betriebssystem-Kompatibilität:

GPU-Support:

Ollama installieren

Windows

macOS

Linux (Ubuntu/Debian/Fedora)

Installation prüfen

Ollama-Dienst starten

Erstes Modell herunterladen

Weitere empfehlenswerte Modelle:

Installierte Modelle anzeigen:

Modellgrößen auf der Festplatte:

Ollama im Terminal testen

Ollama als API nutzen

Performance prüfen

Docker installieren (für Open WebUI)

Windows

macOS

Linux (Ubuntu/Debian)

Docker prüfen

Open WebUI installieren und starten

Standard-Installation (Ollama läuft auf dem gleichen Rechner):

Was macht dieser Befehl?

Variante mit GPU-Support (NVIDIA):

Variante: Ollama + Open WebUI in einem Container:

Öffne die Weboberfläche:

Open WebUI einrichten

1. Account erstellen

2. Modell auswählen

3. System-Prompt setzen (optional aber empfohlen)

4. Weitere Modelle über die UI herunterladen

5. Dokumente hochladen (RAG)

Welches Modell für welchen Zweck?

Modell-Empfehlungen nach Anwendungsfall:

Mehrere Modelle gleichzeitig nutzen

Eigenes Modelfile erstellen

Profi-Tipps und Kosten-Vergleich

GPU-Offloading aktivieren

Ollama im Netzwerk freigeben

Open WebUI updaten

Kosten-Vergleich: Lokal vs. Cloud

Nächste Schritte

Weitere Tutorials

ComfyUI + Stable Diffusion — Professionelle Bildgenerierung auf der eigenen GPU

Tabby — Lokaler KI-Code-Assistent als GitHub Copilot-Alternative

Eigener KI-Sprachassistent mit Whisper + Piper TTS — Komplett offline