100% Lokal · DSGVO

Stable Diffusion 3.5

von Stability AI · Lizenz: Stability AI Community License · Kommerziell nutzbar

Leistungsstarke lokale Bildgenerierung mit 8B-Parameter-Diffusion-Transformer

4.5 Gesamt

Verfügbare Größen: 2.5B 8B

Website HuggingFace

Was ist Stable Diffusion 3.5?

Stable Diffusion 3.5 ist die neueste Generation der bahnbrechenden Text-zu-Bild-Modellfamilie von Stability AI. Das Modell basiert auf einer innovativen Multimodal-Diffusion-Transformer-Architektur (MMDiT) und nutzt drei vortrainierte Text-Encoder, um Textanweisungen präzise in hochwertige Bilder umzusetzen. Die Large-Variante verfügt über 8 Milliarden Parameter und erzeugt Bilder in bis zu 1-Megapixel-Auflösung, während die Medium-Variante mit 2,5 Milliarden Parametern speziell für Consumer-Hardware optimiert ist und bereits mit 10 GB VRAM auskommt.

Eine besondere Stärke ist die Large-Turbo-Version, die durch Destillation hochwertige Bilder in nur vier Inferenzschritten generiert — ideal für Echtzeit-Anwendungen. SD 3.5 verwendet QK-Normalisierung für stabiles Training und Dual-Attention-Blöcke in den ersten zwölf Transformer-Schichten, was zu deutlich verbesserter Text-Bild-Kohärenz führt. Die Architektur unterstützt sowohl Text-zu-Bild als auch Bild-zu-Bild-Generierung mit flexiblen Auflösungen zwischen 0,25 und 2 Megapixel.

Für die lokale Nutzung empfiehlt sich ComfyUI als grafische Oberfläche oder die Integration über die Hugging-Face-Diffusers-Bibliothek. Die Community-Lizenz erlaubt kommerzielle Nutzung für Unternehmen mit unter einer Million Dollar Umsatz. SD 3.5 setzt damit den Standard für hochwertige, lokal ausführbare Bildgenerierung und bietet eine datenschutzfreundliche Alternative zu Cloud-basierten Diensten wie DALL-E oder Midjourney.

Fähigkeiten-Matrix

Was kann Stable Diffusion 3.5 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

5.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
2.5B (Medium)	8 GB	10 GB	✗ Nein	fp16	RTX 3060 12GB
8B (Large)	16 GB	16 GB	✗ Nein	fp16	RTX 4070 Ti

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.0/5

Weitere Stable-diffusion-Modelle

Stable Diffusion XL

Der bewährte Standard für lokale KI-Bildgenerierung

3.5B Base + 6.6B Refiner

Details ansehen

War diese Übersicht hilfreich?