100% Lokal · DSGVO

Kandinsky 3

von Sber AI · Lizenz: Apache 2.0 · Kommerziell nutzbar

Russisches Open-Source-Bildgenerierungsmodell mit 12B Parametern

3.5 Gesamt

Verfügbare Größen: 12B

Website HuggingFace

Was ist Kandinsky 3?

Kandinsky 3 ist ein leistungsstarkes Text-zu-Bild-Generierungsmodell von Sber AI, das mit 12 Milliarden Parametern in seiner Diffusionspipeline beeindruckende Bilder aus Textbeschreibungen erzeugt. Das Modell baut auf einer zweistufigen Architektur auf: Ein Text-Encoder verarbeitet die Eingabe, während ein latenter Diffusionsprozess hochwertige Bilder bei Auflösungen bis zu 1024x1024 Pixeln generiert. Kandinsky 3 zeichnet sich durch eine verbesserte Bildqualität gegenüber seinem Vorgänger aus und unterstützt Mehrsprachigkeit, einschliesslich deutscher Prompts.

Die Bildergebnisse zeigen starke ästhetische Qualität mit guter Textwiedergabe und realistischen Details. Das Modell benötigt eine GPU mit mindestens 8 GB VRAM und lässt sich über die Diffusers-Bibliothek von Hugging Face lokal betreiben. Die Apache-2.0-Lizenz erlaubt den kommerziellen Einsatz, was Kandinsky 3 zu einer attraktiven Alternative für Unternehmen macht, die Bildgenerierung vollständig lokal und DSGVO-konform durchfuehren möchten.

Im Vergleich zu Stable Diffusion bietet Kandinsky 3 eine andere ästhetische Ausrichtung und kann besonders bei komplexen Kompositionen und künstlerischen Stilen punkten. Die Community hat zahlreiche Anleitungen und Workflows entwickelt, die den Einstieg erleichtern. Die aktive Entwicklung durch Sber AI verspricht regelmäßige Verbesserungen.

Für europäische Nutzer ist besonders relevant, dass Kandinsky 3 vollständig lokal läuft und somit alle DSGVO-Anforderungen erfüllt. Die generierten Bilder können ohne zusätzliche Lizenzgebühren kommerziell verwendet werden.

Fähigkeiten-Matrix

Was kann Kandinsky 3 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

3.5

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

4.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
12B	16 GB	12 GB	✗ Nein	fp16	RTX 3060 12GB oder RTX 4070

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.5/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?