Stable Diffusion 3.5
von Stability AI · Lizenz: Stability AI Community License · Kommerziell nutzbar
Leistungsstarke lokale Bildgenerierung mit 8B-Parameter-Diffusion-Transformer
Was ist Stable Diffusion 3.5?
Stable Diffusion 3.5 ist die neueste Generation der bahnbrechenden Text-zu-Bild-Modellfamilie von Stability AI. Das Modell basiert auf einer innovativen Multimodal-Diffusion-Transformer-Architektur (MMDiT) und nutzt drei vortrainierte Text-Encoder, um Textanweisungen präzise in hochwertige Bilder umzusetzen. Die Large-Variante verfügt über 8 Milliarden Parameter und erzeugt Bilder in bis zu 1-Megapixel-Auflösung, während die Medium-Variante mit 2,5 Milliarden Parametern speziell für Consumer-Hardware optimiert ist und bereits mit 10 GB VRAM auskommt.
Eine besondere Stärke ist die Large-Turbo-Version, die durch Destillation hochwertige Bilder in nur vier Inferenzschritten generiert — ideal für Echtzeit-Anwendungen. SD 3.5 verwendet QK-Normalisierung für stabiles Training und Dual-Attention-Blöcke in den ersten zwölf Transformer-Schichten, was zu deutlich verbesserter Text-Bild-Kohärenz führt. Die Architektur unterstützt sowohl Text-zu-Bild als auch Bild-zu-Bild-Generierung mit flexiblen Auflösungen zwischen 0,25 und 2 Megapixel.
Für die lokale Nutzung empfiehlt sich ComfyUI als grafische Oberfläche oder die Integration über die Hugging-Face-Diffusers-Bibliothek. Die Community-Lizenz erlaubt kommerzielle Nutzung für Unternehmen mit unter einer Million Dollar Umsatz. SD 3.5 setzt damit den Standard für hochwertige, lokal ausführbare Bildgenerierung und bietet eine datenschutzfreundliche Alternative zu Cloud-basierten Diensten wie DALL-E oder Midjourney.
Fähigkeiten-Matrix
Was kann Stable Diffusion 3.5 — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 2.5B (Medium) | 8 GB | 10 GB | ✗ Nein | fp16 | RTX 3060 12GB |
| 8B (Large) | 16 GB | 16 GB | ✗ Nein | fp16 | RTX 4070 Ti |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?