100% Lokal · DSGVO

Stable Diffusion 3.5

von Stability AI · Lizenz: Stability AI Community License · Kommerziell nutzbar

Leistungsstarke lokale Bildgenerierung mit 8B-Parameter-Diffusion-Transformer

4.5 Gesamt
Verfügbare Größen: 2.5B 8B

Was ist Stable Diffusion 3.5?

Stable Diffusion 3.5 ist die neueste Generation der bahnbrechenden Text-zu-Bild-Modellfamilie von Stability AI. Das Modell basiert auf einer innovativen Multimodal-Diffusion-Transformer-Architektur (MMDiT) und nutzt drei vortrainierte Text-Encoder, um Textanweisungen präzise in hochwertige Bilder umzusetzen. Die Large-Variante verfügt über 8 Milliarden Parameter und erzeugt Bilder in bis zu 1-Megapixel-Auflösung, während die Medium-Variante mit 2,5 Milliarden Parametern speziell für Consumer-Hardware optimiert ist und bereits mit 10 GB VRAM auskommt.

Eine besondere Stärke ist die Large-Turbo-Version, die durch Destillation hochwertige Bilder in nur vier Inferenzschritten generiert — ideal für Echtzeit-Anwendungen. SD 3.5 verwendet QK-Normalisierung für stabiles Training und Dual-Attention-Blöcke in den ersten zwölf Transformer-Schichten, was zu deutlich verbesserter Text-Bild-Kohärenz führt. Die Architektur unterstützt sowohl Text-zu-Bild als auch Bild-zu-Bild-Generierung mit flexiblen Auflösungen zwischen 0,25 und 2 Megapixel.

Für die lokale Nutzung empfiehlt sich ComfyUI als grafische Oberfläche oder die Integration über die Hugging-Face-Diffusers-Bibliothek. Die Community-Lizenz erlaubt kommerzielle Nutzung für Unternehmen mit unter einer Million Dollar Umsatz. SD 3.5 setzt damit den Standard für hochwertige, lokal ausführbare Bildgenerierung und bietet eine datenschutzfreundliche Alternative zu Cloud-basierten Diensten wie DALL-E oder Midjourney.

Fähigkeiten-Matrix

Was kann Stable Diffusion 3.5 — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.0
🧮 Mathematik / Logik
✍️ Kreatives Schreiben
5.0

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
2.5B (Medium) 8 GB 10 GB ✗ Nein fp16 RTX 3060 12GB
8B (Large) 16 GB 16 GB ✗ Nein fp16 RTX 4070 Ti

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★★☆ 4.0/5
RAM/VRAM-Effizienz ★★★★☆ 4.0/5

War diese Übersicht hilfreich?