ComfyUI + Stable Diffusion — Professionelle Bildgenerierung auf der eigenen GPU
Unbegrenzte Bildgenerierung ohne Abo
Midjourney kostet 10-60 $/Monat. DALL-E rechnet pro Bild ab. Und beide zensieren, was du generieren darfst. Die Alternative: Stable Diffusion auf deiner eigenen GPU — mit ComfyUI als professioneller Oberfläche.
ComfyUI ist ein node-basierter Workflow-Editor für Bildgenerierung. Klingt kompliziert, ist aber genial: Du verbindest visuelle Bausteine wie in einem Flussdiagramm und hast volle Kontrolle über jeden Aspekt der Bildgenerierung. Profis weltweit nutzen ComfyUI für Kunst, Produktfotos, Konzeptdesign und vieles mehr.
Das Beste: Nach der einmaligen Einrichtung generierst du unbegrenzt Bilder — die einzigen Kosten sind Strom. Bei durchschnittlich 200W GPU-Verbrauch und 30 Sekunden pro Bild kostet ein Bild etwa 0,0005 €.
Warum lokal Bilder generieren?
Cloud vs. Lokal — der ehrliche Vergleich:
| Eigenschaft | Midjourney / DALL-E | ComfyUI (lokal) |
|---|---|---|
| Kosten | 10-60 $/Monat | Einmalig: GPU |
| Bilder pro Monat | Begrenzt (je nach Plan) | Unbegrenzt |
| Zensur | Stark (keine NSFW, keine Personen) | Du entscheidest |
| Geschwindigkeit | Abhängig von Serverlast | Konstant, deine Hardware |
| Kontrolle | Nur Text-Prompt | Volle Kontrolle (Nodes) |
| Modell-Auswahl | 1 Modell (vom Anbieter) | Tausende Modelle |
| Kommerz. Nutzung | Eingeschränkt | Modellabhängig, oft frei |
| Datenschutz | Bilder auf fremden Servern | 100% lokal |
Was ist ComfyUI?
ComfyUI ist ein visueller Workflow-Editor für Diffusionsmodelle. Statt nur einen Text-Prompt einzugeben, baust du einen Graphen aus Nodes (Bausteinen):
- Checkpoint Loader → Lädt das KI-Modell
- CLIP Text Encode → Verarbeitet deinen Prompt
- KSampler → Der eigentliche Bildgenerator
- VAE Decode → Wandelt Latent-Bild in Pixel um
- Save Image → Speichert das Ergebnis
GPU-Anforderungen und Generierungszeiten
Welche GPU brauchst du?
Bildgenerierung ist GPU-intensiv. Hier die konkreten Anforderungen:
| GPU | VRAM | SDXL 1024×1024 | Flux (schnell) | Empfehlung |
|---|---|---|---|---|
| GTX 1060 6GB | 6 GB | ❌ Zu wenig | ❌ | Nicht empfohlen |
| RTX 3060 12GB | 12 GB | ~25 Sek. | ~60 Sek. (--lowvram) | Minimum für SDXL |
| RTX 4060 Ti 16GB | 16 GB | ~15 Sek. | ~35 Sek. | Gutes Einstiegsmodell |
| RTX 4070 12GB | 12 GB | ~12 Sek. | ~30 Sek. | Empfohlen |
| RTX 4080 16GB | 16 GB | ~8 Sek. | ~18 Sek. | Sehr gut |
| RTX 4090 24GB | 24 GB | ~5 Sek. | ~10 Sek. | Profi-Wahl |
| Apple M2 Pro | Shared | ~35 Sek. | ~80 Sek. | Funktioniert! |
| Apple M3 Max | Shared | ~20 Sek. | ~45 Sek. | Gut auf Mac |
AMD-GPUs (ROCm, nur Linux):
| GPU | VRAM | SDXL 1024×1024 | Status |
|---|---|---|---|
| RX 6700 XT | 12 GB | ~40 Sek. | Funktioniert |
| RX 7900 XTX | 24 GB | ~15 Sek. | Gut |
Kein GPU? CPU-Only ist möglich aber...
SD 1.5 auf CPU: ~5-10 Minuten pro Bild
SDXL auf CPU: ~15-30 Minuten pro Bild
Flux auf CPU: Nicht praktikabelEmpfehlung: Mindestens eine RTX 3060 12GB (gebraucht ab ~200 €).
Python und Git installieren
ComfyUI braucht Python 3.11+ und Git. Falls noch nicht installiert:
Windows
Python: 1. Gehe zu python.org/downloads 2. Lade Python 3.12.x herunter (aktuellste stabile Version) 3. WICHTIG: Beim Installieren „Add python.exe to PATH" ankreuzen! 4. Prüfe im Terminal:
python --version
# Sollte "Python 3.12.x" ausgebenGit: 1. Gehe zu git-scm.com/download/win 2. Installiere mit Standard-Einstellungen 3. Prüfe:
git --version
# Sollte "git version 2.x.x" ausgebenmacOS
# Python (falls nicht vorhanden)
brew install python@3.12# Git (meistens schon installiert)
brew install git
Linux (Ubuntu/Debian)
sudo apt update
sudo apt install python3 python3-pip python3-venv git -ypython3 --version
git --version
NVIDIA CUDA Toolkit (nur für NVIDIA-GPUs)
Prüfe ob CUDA installiert ist:
nvidia-smi
# Zeigt GPU-Info und CUDA-VersionFalls nicht, installiere die Treiber von nvidia.com/drivers.
ComfyUI herunterladen und einrichten
Option A: Git Clone (empfohlen)
# Wähle einen Ordner (z.B. auf D: unter Windows)
cd ~ # oder z.B. cd D:/# ComfyUI klonen
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
Option B: Portable Version (nur Windows)
Für Windows gibt es eine vorkonfigurierte Version:
1. Gehe zu github.com/comfyanonymous/ComfyUI/releases
2. Lade die neueste ComfyUI_windows_portable_*.7z herunter
3. Entpacke mit 7-Zip
4. Fertig — Spring zu Schritt 7!
Virtuelle Python-Umgebung erstellen (für Git Clone):
# Im ComfyUI-Ordner:
python3 -m venv venv# Aktivieren:
# Windows:
venv\Scripts\activate
# Linux/macOS:
source venv/bin/activate
PyTorch mit CUDA installieren (NVIDIA):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124PyTorch für AMD (ROCm, nur Linux):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.2PyTorch für Apple Silicon:
pip install torch torchvision torchaudioComfyUI-Dependencies installieren:
pip install -r requirements.txt KI-Modelle herunterladen
ComfyUI braucht mindestens ein Checkpoint-Modell. Hier die besten Optionen:
Stable Diffusion XL (SDXL) — Der Allrounder
Größe: ~6,5 GB | Empfehlung: Ja!
# Download-Link (offiziell von Stability AI):
# https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors# Speichere die Datei in:
# ComfyUI/models/checkpoints/sd_xl_base_1.0.safetensors
# Linux/macOS per Terminal:
cd ComfyUI/models/checkpoints/
wget https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors
Flux — Das neueste Modell (bester Output)
Größe: ~11,9 GB (dev) oder ~11,9 GB (schnell) | Braucht: 16+ GB VRAM
# Flux-Schnell (schneller, etwas weniger Qualität):
# https://huggingface.co/black-forest-labs/FLUX.1-schnell/resolve/main/flux1-schnell.safetensors# Speichern in:
# ComfyUI/models/checkpoints/flux1-schnell.safetensors
cd ComfyUI/models/checkpoints/
wget https://huggingface.co/black-forest-labs/FLUX.1-schnell/resolve/main/flux1-schnell.safetensors
SD 1.5 — Für schwache Hardware
Größe: ~2 GB | Funktioniert ab 4 GB VRAM
# Realistic Vision v5.1 (beliebtes SD 1.5 Modell):
# https://huggingface.co/SG161222/Realistic_Vision_V5.1_noVAE/resolve/main/Realistic_Vision_V5.1_fp16-no-ema.safetensorscd ComfyUI/models/checkpoints/
wget "https://huggingface.co/SG161222/Realistic_Vision_V5.1_noVAE/resolve/main/Realistic_Vision_V5.1_fp16-no-ema.safetensors"
Modell-Ordnerstruktur:
ComfyUI/
└── models/
├── checkpoints/ ← Hauptmodelle (SDXL, Flux, SD 1.5)
├── loras/ ← LoRA-Feinabstimmungen
├── vae/ ← VAE-Modelle (Farbverbesserung)
├── controlnet/ ← ControlNet-Modelle (Posen, Kanten)
└── upscale_models/ ← Hochskalierungs-Modelle ComfyUI starten und ersten Workflow laden
ComfyUI starten:
# Im ComfyUI-Ordner (mit aktivierter venv):
python main.py# Mit wenig VRAM (unter 8 GB):
python main.py --lowvram
# Nur CPU (kein GPU):
python main.py --cpu
# Spezifischen Port nutzen:
python main.py --port 8188
Ausgabe im Terminal:
Starting server
To see the GUI go to: http://127.0.0.1:8188Öffne http://127.0.0.1:8188 in deinem Browser.
Der Standard-Workflow
Beim ersten Start siehst du einen vorgeladenen Workflow mit diesen Nodes:
1. Load Checkpoint — Wähle hier dein Modell (z.B. sd_xl_base_1.0.safetensors)
2. CLIP Text Encode (Positive Prompt) — Beschreibe was du sehen willst
3. CLIP Text Encode (Negative Prompt) — Beschreibe was du NICHT willst
4. KSampler — Der Generator (Steps, CFG Scale, Sampler, Scheduler)
5. Empty Latent Image — Bildgröße (z.B. 1024×1024 für SDXL)
6. VAE Decode — Wandelt das Latent-Bild in Pixel um
7. Save Image — Speichert das Ergebnis
Ersten Test-Prompt eingeben:
Positive Prompt:
a majestic german shepherd dog sitting in a sunlit meadow,
photorealistic, 8k, detailed fur, golden hour lighting,
bokeh background, professional photographyNegative Prompt:
blurry, low quality, distorted, deformed, ugly, watermark, textKlicke auf "Queue Prompt" (oder drücke Enter) und warte auf dein erstes Bild!
ComfyUI Manager und Custom Nodes installieren
Der ComfyUI Manager ist das wichtigste Plugin — er ermöglicht die Installation weiterer Nodes direkt aus der Oberfläche.
ComfyUI Manager installieren:
# ComfyUI stoppen (Ctrl+C im Terminal)
# Dann:
cd ComfyUI/custom_nodes/
git clone https://github.com/ltdrdata/ComfyUI-Manager.gitComfyUI neu starten — der Manager installiert seine Dependencies automatisch.
Nach dem Neustart findest du oben rechts einen "Manager"-Button.
Wichtige Custom Nodes (über den Manager installieren):
Klicke auf Manager → Install Custom Nodes und suche nach:
| Node-Pack | Funktion |
|---|---|
| ComfyUI-Impact-Pack | Gesichtserkennung, Detailer, Masken |
| ComfyUI-Advanced-ControlNet | Posen-Kontrolle, Kanten-Erkennung |
| ComfyUI-IPAdapter | Style-Transfer von Referenzbildern |
| ComfyUI-KJNodes | Nützliche Utility-Nodes |
| ComfyUI-WD14-Tagger | Automatisches Tagging von Bildern |
| efficiency-nodes-comfyui | Kompakte Sampler-Nodes |
Manuell installieren (falls der Manager nicht funktioniert):
cd ComfyUI/custom_nodes/# Impact Pack
git clone https://github.com/ltdrdata/ComfyUI-Impact-Pack.git
cd ComfyUI-Impact-Pack
pip install -r requirements.txt
cd ..
# IPAdapter
git clone https://github.com/cubiq/ComfyUI_IPAdapter_plus.git
# ControlNet Auxiliary Preprocessors
git clone https://github.com/Fannovel16/comfyui_controlnet_aux.git
cd comfyui_controlnet_aux
pip install -r requirements.txt
Starte ComfyUI nach jeder Installation neu.
LoRA-Modelle und Styles nutzen
LoRA (Low-Rank Adaptation) sind kleine Zusatzmodelle (~10-200 MB), die den Stil oder das Motiv deiner Bilder verändern — ohne das Hauptmodell zu tauschen.
LoRA herunterladen:
Die beste Quelle ist civitai.com — dort gibt es tausende kostenlose LoRAs.
# Beispiel: Ein populäres Detail-LoRA für SDXL
# Speichern in: ComfyUI/models/loras/cd ComfyUI/models/loras/
# Lade LoRAs manuell von civitai.com herunter
# und lege sie in diesen Ordner
LoRA in ComfyUI nutzen:
1. Rechtsklick auf die Canvas → Add Node → loaders → Load LoRA 2. Verbinde den LoRA-Node zwischen Load Checkpoint und CLIP Text Encode 3. Wähle dein LoRA-Modell und stelle die Stärke ein (0.5-1.0 empfohlen)
Prompt-Syntax für LoRAs:
Viele LoRAs haben Trigger-Wörter die du im Prompt verwenden musst:
# Beispiel mit einem Anime-LoRA:
anime style, 1girl, cherry blossom, sunset, <lora:anime_style:0.8># Beispiel mit einem Architektur-LoRA:
modern villa, glass facade, minimalist design, <lora:architecture:0.7>
Workflow-Beispiele mit konkreten Prompts:
Porträt-Foto (SDXL):
professional portrait photograph of a young woman,
natural lighting, shallow depth of field,
canon 85mm f/1.4, studio background,
photorealistic, detailed skin textureProdukt-Foto:
commercial product photography, white sneakers on
marble surface, soft studio lighting, clean background,
high-end advertising, 8k resolutionFantasy-Landschaft:
epic fantasy landscape, floating islands,
bioluminescent plants, dual moons in sky,
volumetric fog, cinematic lighting, matte painting style Batch-Generierung und Upscaling
Mehrere Bilder auf einmal generieren:
Im KSampler-Node kannst du den Batch Size erhöhen:
- Batch Size 1 = 1 Bild
- Batch Size 4 = 4 Bilder gleichzeitig (braucht 4× VRAM!)
- Klicke auf die Zahl neben "Queue Prompt" und setze z.B. 10
- ComfyUI generiert 10 Bilder nacheinander
Besser: Nutze den Queue-Button mit Anzahl:
Upscaling mit 4x-UltraSharp:
1. Lade das 4x-UltraSharp Upscaling-Modell herunter:
cd ComfyUI/models/upscale_models/
wget https://huggingface.co/datasets/Kizi-Art/Upscale/resolve/main/4x-UltraSharp.pth2. In ComfyUI: Add Node → loaders → Load Upscale Model 3. Dann: Add Node → image → upscaling → Upscale Image (using Model) 4. Verbinde: VAE Decode → Upscale Image → Save Image
Hires-Fix (2-Pass-Verfahren):
Für beste Qualität: Generiere in Standardauflösung, dann skaliere mit KSampler hoch:
1. Erster KSampler: 1024×1024, 20 Steps 2. Upscale Latent auf 2048×2048 3. Zweiter KSampler: 10 Steps, Denoise 0.4-0.5
Seed-Management:
Seed = -1 → Zufällig (jedes Bild anders)
Seed = 12345 → Immer das gleiche Bild (reproduzierbar!)Wenn dir ein Bild gefällt: Notiere den Seed! So kannst du Variationen erstellen.
Performance optimieren
Startparameter für verschiedene Hardware:
# Standard (8+ GB VRAM)
python main.py# Wenig VRAM (6-8 GB)
python main.py --lowvram
# Sehr wenig VRAM (4-6 GB)
python main.py --novram
# FP16 erzwingen (spart VRAM)
python main.py --force-fp16
# Nur CPU
python main.py --cpu
# Mehrere GPUs
python main.py --multi-gpu
xformers installieren (bis zu 20% schneller):
pip install xformersComfyUI erkennt xformers automatisch und nutzt es wenn verfügbar.
VRAM sparen mit Quantisierung:
Für Flux-Modelle gibt es quantisierte Varianten:
| Variante | VRAM | Qualität |
|---|---|---|
| FP16 (Standard) | ~24 GB | 100% |
| FP8 (quantisiert) | ~12 GB | ~98% |
| NF4 (stark quantisiert) | ~8 GB | ~92% |
FP8-Modelle findest du auf Hugging Face:
# Flux Schnell FP8:
cd ComfyUI/models/checkpoints/
wget https://huggingface.co/Comfy-Org/flux1-schnell/resolve/main/flux1-schnell-fp8_e4m3fn.safetensorsCache und temporäre Dateien:
# ComfyUI Cache-Ordner:
# ComfyUI/temp/ — kann regelmäßig geleert werden
# ComfyUI/output/ — hier liegen deine generierten Bilder# Festplatten-Verbrauch prüfen:
du -sh ComfyUI/models/
du -sh ComfyUI/output/
Typischer Festplatten-Verbrauch:
| Komponente | Größe |
|---|---|
| ComfyUI (Code) | ~500 MB |
| SDXL Checkpoint | ~6,5 GB |
| Flux Schnell | ~12 GB |
| 10 LoRAs | ~1-2 GB |
| ControlNet Modelle | ~5-10 GB |
| Output (1000 Bilder) | ~3-5 GB |
| Gesamt (typisch) | ~25-35 GB |
Nächste Schritte
Du hast jetzt ein vollständiges lokales Bildgenerierungs-Setup! Als nächstes empfehlen wir:
- Civitai.com erkunden: Tausende kostenlose Modelle, LoRAs und Workflows speziell für ComfyUI
- ComfyUI-Workflows teilen: Exportiere deine Workflows als JSON und teile sie mit der Community
- Video-Generierung: Mit AnimateDiff kannst du sogar kurze Videos generieren
- Img2Img: Nutze eigene Fotos als Basis für KI-generierte Variationen