Ollama + Open WebUI — Eigene ChatGPT-Alternative in 10 Minuten
Warum eine eigene KI betreiben?
Jedes Mal, wenn du ChatGPT, Claude oder Gemini nutzt, verlassen deine Daten dein Netzwerk. Jede Frage, jeder Text, jede Idee landet auf fremden Servern — oft in den USA, oft ohne klare Löschfristen. Für Unternehmen ein DSGVO-Albtraum, für Privatpersonen ein Datenschutz-Risiko.
Die Lösung: Eigene KI, eigene Hardware, null Cloud. Mit Ollama und Open WebUI bekommst du eine ChatGPT-ähnliche Oberfläche, die komplett auf deinem Rechner läuft. Die Modelle sind Open Source, die Qualität ist erstaunlich gut — und du zahlst 0 € pro Monat statt 20 € für ChatGPT Plus.
In dieser Anleitung zeigen wir dir Schritt für Schritt, wie du in unter 15 Minuten deine eigene KI-Instanz aufsetzt. Keine Vorkenntnisse nötig, keine Kreditkarte, kein Abo.
Was ist Ollama und warum lokal?
Ollama ist ein kostenloses Open-Source-Tool, das große Sprachmodelle (LLMs) direkt auf deinem Computer ausführt. Statt deine Daten an OpenAI oder Google zu senden, läuft alles lokal auf deiner Hardware.
Vorteile gegenüber Cloud-KI:
| Eigenschaft | Cloud (ChatGPT) | Lokal (Ollama) |
|---|---|---|
| Datenschutz | Daten auf US-Servern | Daten bleiben bei dir |
| DSGVO | Problematisch | ✅ Konform |
| Kosten | 20 €/Monat (Plus) | 0 € (nur Strom) |
| Internet nötig? | Ja, immer | Nein, 100% offline |
| Zensur | Vom Anbieter gesteuert | Du entscheidest |
| Geschwindigkeit | Abhängig von Serverlast | Abhängig von deiner Hardware |
Open WebUI gibt dir dazu eine hübsche Chat-Oberfläche im Browser — fast identisch zu ChatGPT, aber auf deinem eigenen Rechner.
Systemanforderungen prüfen
Bevor du loslegst, prüfe ob dein System die Mindestanforderungen erfüllt. Die gute Nachricht: Selbst ein 5 Jahre alter Laptop reicht für kleine Modelle!
Mindestanforderungen nach Modellgröße:
| Modell | Parameter | RAM (min.) | VRAM (GPU) | Festplatte |
|---|---|---|---|---|
| Llama 3.2 1B | 1 Mrd. | 4 GB | nicht nötig | 1,3 GB |
| Llama 3.2 3B | 3 Mrd. | 6 GB | 4 GB | 2,0 GB |
| Llama 3.1 8B | 8 Mrd. | 8 GB | 6 GB | 4,7 GB |
| Mistral 7B | 7 Mrd. | 8 GB | 6 GB | 4,1 GB |
| Gemma 2 9B | 9 Mrd. | 10 GB | 8 GB | 5,4 GB |
| Llama 3.3 70B | 70 Mrd. | 48 GB | 48 GB | 40 GB |
Betriebssystem-Kompatibilität:
- Windows 10/11 (64-Bit)
- macOS 12 Monterey oder neuer (Intel & Apple Silicon)
- Linux (Ubuntu 20.04+, Debian 11+, Fedora 36+)
- NVIDIA: Alle GPUs ab GTX 1060 (CUDA)
- AMD: Radeon RX 6000+ (ROCm, nur Linux)
- Apple Silicon: M1/M2/M3/M4 (Metal, sehr gut optimiert!)
- Keine GPU? Kein Problem — Ollama läuft auch auf der CPU, nur langsamer.
GPU-Support:
Ollama installieren
Windows
1. Lade den Installer von der offiziellen Webseite herunter: ollama.com/download
2. Führe die .exe-Datei aus und folge dem Installer
3. Alternativ via PowerShell:
winget install Ollama.OllamamacOS
brew install ollamaOder lade die App von ollama.com/download herunter.
Linux (Ubuntu/Debian/Fedora)
Ein einziger Befehl — kopiere ihn ins Terminal:
curl -fsSL https://ollama.com/install.sh | shInstallation prüfen
Nach der Installation in einem neuen Terminal:
ollama --versionDu solltest eine Versionsnummer sehen (z.B. ollama version 0.6.x).
Ollama-Dienst starten
Auf Windows und macOS startet Ollama automatisch. Auf Linux:
sudo systemctl start ollama
sudo systemctl enable ollama # Autostart aktivierenPrüfe ob der Dienst läuft:
sudo systemctl status ollama Erstes Modell herunterladen
Jetzt laden wir dein erstes KI-Modell herunter. Wir empfehlen Llama 3.1 8B als Einstieg — es ist das beste Verhältnis aus Qualität und Geschwindigkeit.
ollama pull llama3.1:8bDer Download ist ca. 4,7 GB groß. Je nach Internetverbindung dauert das 2-10 Minuten.
Weitere empfehlenswerte Modelle:
# Kleines, schnelles Modell (ideal für schwache Hardware)
ollama pull llama3.2:3b# Sehr gutes deutsches Sprachverständnis
ollama pull mistral:7b
# Google's kompaktes Modell
ollama pull gemma2:9b
# Für Code-Aufgaben
ollama pull codellama:7b
# Multimodal (versteht auch Bilder!)
ollama pull llama3.2-vision:11b
Installierte Modelle anzeigen:
ollama listModellgrößen auf der Festplatte:
| Modell | Download-Größe |
|---|---|
| llama3.2:3b | 2,0 GB |
| llama3.1:8b | 4,7 GB |
| mistral:7b | 4,1 GB |
| gemma2:9b | 5,4 GB |
| codellama:7b | 3,8 GB |
| llama3.2-vision:11b | 7,9 GB |
Ollama im Terminal testen
Bevor wir die Web-Oberfläche einrichten, testen wir Ollama direkt im Terminal:
ollama run llama3.1:8bDu landest in einem interaktiven Chat. Teste es:
>>> Erkläre mir Quantencomputer in 3 Sätzen, als wäre ich 10 Jahre alt.Stell dir vor, ein normaler Computer ist wie ein Lichtschalter — er kann
nur AN oder AUS sein. Ein Quantencomputer ist wie ein magischer Schalter,
der gleichzeitig AN und AUS sein kann! Dadurch kann er ganz viele
Rechnungen auf einmal machen, statt eine nach der anderen.
>>> /bye
Ollama als API nutzen
Ollama startet automatisch einen lokalen API-Server auf Port 11434:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Was ist die Hauptstadt von Deutschland?",
"stream": false
}'Performance prüfen
Während ein Modell läuft, zeige die Auslastung:
ollama psDas zeigt dir, welche Modelle geladen sind, wieviel RAM/VRAM sie nutzen und ob GPU oder CPU verwendet wird.
Docker installieren (für Open WebUI)
Open WebUI wird am einfachsten per Docker installiert. Falls du Docker noch nicht hast:
Windows
1. Lade Docker Desktop herunter 2. Installiere und starte Docker Desktop 3. Warte bis das Docker-Symbol in der Taskleiste grün wird
macOS
brew install --cask dockerOder lade Docker Desktop von docker.com herunter.
Linux (Ubuntu/Debian)
# Docker installieren
curl -fsSL https://get.docker.com | sh# Deinen User zur Docker-Gruppe hinzufügen (wichtig!)
sudo usermod -aG docker $USER
# Ausloggen und wieder einloggen, damit die Gruppenänderung wirkt
# Oder in der aktuellen Session:
newgrp docker
Docker prüfen
docker --version
docker run hello-worldWenn du die Nachricht "Hello from Docker!" siehst, funktioniert alles.
Open WebUI installieren und starten
Jetzt kommt der spannende Teil — ein einziger Befehl und du hast deine eigene ChatGPT-Oberfläche!
Standard-Installation (Ollama läuft auf dem gleichen Rechner):
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainWas macht dieser Befehl?
-d→ Läuft im Hintergrund-p 3000:8080→ Erreichbar unter Port 3000--add-host=...→ Verbindung zu Ollama auf dem Host-v open-webui:/app/backend/data→ Daten bleiben nach Neustart erhalten--restart always→ Startet automatisch nach Reboot
Variante mit GPU-Support (NVIDIA):
docker run -d \
-p 3000:8080 \
--gpus all \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:cudaVariante: Ollama + Open WebUI in einem Container:
docker run -d \
-p 3000:8080 \
-v ollama:/root/.ollama \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:ollamaÖffne die Weboberfläche:
Warte 30 Sekunden, dann öffne im Browser: http://localhost:3000
Open WebUI einrichten
Beim ersten Öffnen von http://localhost:3000 musst du einen Admin-Account erstellen:
1. Account erstellen
- Klicke auf "Sign up"
- Gib Name, E-Mail und Passwort ein
- Der erste Account wird automatisch Admin
- Oben im Chat-Fenster siehst du ein Dropdown-Menü
- Wähle dein heruntergeladenes Modell (z.B.
llama3.1:8b) - Falls kein Modell angezeigt wird: Prüfe ob Ollama läuft (
ollama ps) - Gehe zu Einstellungen → Allgemein
- Unter "System Prompt" kannst du eine Standard-Anweisung setzen:
2. Modell auswählen
3. System-Prompt setzen (optional aber empfohlen)
Du bist ein hilfreicher KI-Assistent. Antworte immer auf Deutsch,
präzise und gut strukturiert. Verwende Markdown-Formatierung.4. Weitere Modelle über die UI herunterladen
mistral:7b) und klicke auf Download5. Dokumente hochladen (RAG)
Welches Modell für welchen Zweck?
Nicht jedes Modell ist für jede Aufgabe ideal. Hier unsere Empfehlungen:
Modell-Empfehlungen nach Anwendungsfall:
| Aufgabe | Empfohlenes Modell | Befehl | Qualität |
|---|---|---|---|
| Allgemeiner Chat | Llama 3.1 8B | ollama pull llama3.1:8b | ⭐⭐⭐⭐ |
| Deutsche Texte | Mistral 7B | ollama pull mistral:7b | ⭐⭐⭐⭐ |
| Code schreiben | CodeLlama 7B | ollama pull codellama:7b | ⭐⭐⭐⭐ |
| Bilder beschreiben | LLaVA 13B | ollama pull llava:13b | ⭐⭐⭐⭐ |
| Leichte Aufgaben | Gemma 2 2B | ollama pull gemma2:2b | ⭐⭐⭐ |
| Schwache Hardware | Llama 3.2 1B | ollama pull llama3.2:1b | ⭐⭐ |
| Maximale Qualität | Llama 3.3 70B | ollama pull llama3.3:70b | ⭐⭐⭐⭐⭐ |
Mehrere Modelle gleichzeitig nutzen
In Open WebUI kannst du das Modell pro Chat wechseln. Tipp:
1. Erstelle einen Chat mit Llama 3.1 für allgemeine Fragen 2. Erstelle einen separaten Chat mit CodeLlama für Programmierung 3. Nutze Mistral für Texte auf Deutsch
Eigenes Modelfile erstellen
Erstelle spezialisierte Modelle mit benutzerdefinierten System-Prompts:
# Erstelle eine Datei namens "DeutscherAssistent"
cat << 'EOF' > Modelfile
FROM llama3.1:8b
SYSTEM "Du bist ein deutscher KI-Assistent. Antworte ausschließlich auf Deutsch. Sei präzise, höflich und verwende korrekte Grammatik."
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF# Erstelle das Modell
ollama create deutsch-assistent -f Modelfile
# Teste es
ollama run deutsch-assistent
Profi-Tipps und Kosten-Vergleich
GPU-Offloading aktivieren
Ollama erkennt deine GPU automatisch. Prüfe ob GPU genutzt wird:
ollama ps
# Zeigt an: NAME | SIZE | PROCESSOR
# "100% GPU" = perfekt, "100% CPU" = keine GPU erkanntBei NVIDIA-GPUs stelle sicher, dass die aktuellen Treiber installiert sind:
nvidia-smi # Zeigt GPU-Info und TreiberversionOllama im Netzwerk freigeben
Standardmäßig ist Ollama nur lokal erreichbar. Für LAN-Zugriff:
# Linux: /etc/systemd/system/ollama.service bearbeiten
sudo systemctl edit ollama# Füge hinzu:
# [Service]
# Environment="OLLAMA_HOST=0.0.0.0"
sudo systemctl restart ollama
Open WebUI updaten
docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui
docker rm open-webui
# Dann den docker run Befehl von Schritt 7 erneut ausführenDeine Daten bleiben erhalten, da sie im Docker Volume gespeichert sind!
Kosten-Vergleich: Lokal vs. Cloud
| ChatGPT Plus | Claude Pro | Ollama (lokal) | |
|---|---|---|---|
| Monatliche Kosten | 20 € | 20 € | 0 € |
| Stromkosten (geschätzt) | — | — | ~3-5 €/Monat |
| Jahreskosten | 240 € | 240 € | ~40-60 € |
| Datenschutz | ❌ USA-Server | ❌ USA-Server | ✅ Lokal |
| Offline nutzbar | ❌ | ❌ | ✅ |
| Unbegrenzte Nutzung | Limits vorhanden | Limits vorhanden | ✅ Unbegrenzt |
Stromkosten basieren auf ~50W Verbrauch, 4h/Tag, 0,30 €/kWh (deutscher Durchschnitt)
Nächste Schritte
Du hast jetzt deine eigene KI-Instanz — herzlichen Glückwunsch! Als nächstes kannst du:
- RAG einrichten: Lade eigene Dokumente hoch und lass die KI darüber Fragen beantworten (Open WebUI unterstützt das nativ)
- Eigene Modelfiles erstellen: Passe Modelle mit System-Prompts für spezifische Aufgaben an
- Im Netzwerk teilen: Mach deine Instanz für Kollegen im LAN verfügbar
- Community: Teile deine Erfahrungen im Open WebUI Discord oder auf r/ollama