100% Lokal · DSGVO

Stable Video Diffusion

von Stability AI · Lizenz: Stability AI Community License · Kommerziell nutzbar

Hochwertige Bild-zu-Video-Generierung von Stability AI

4.0 Gesamt

Verfügbare Größen: 1.5B

Website HuggingFace

Was ist Stable Video Diffusion?

Stable Video Diffusion (SVD) ist Stability AIs erstes Open-Source-Modell für die Videogenerierung und setzt neue Maßstäbe bei der Bild-zu-Video-Konvertierung. Das Modell nimmt ein einzelnes Standbild als Eingabe und generiert daraus ein kurzes Video mit natuerlicher Bewegung. SVD ist in zwei Varianten verfügbar: SVD erzeugt 14 Frames, SVD-XT erweitert dies auf 25 Frames bei einer Auflösung von 576x1024 Pixeln.

Die Architektur basiert auf einem latenten Video-Diffusionsmodell, das auf einem kuratierten Datensatz von Millionen hochwertiger Videos trainiert wurde. Die generierten Videos zeichnen sich durch zeitliche Kohärenz, realistische Bewegungen und hohe visuelle Qualität aus. Für die Inferenz wird eine GPU mit mindestens 12 GB VRAM empfohlen, wobei SVD-XT mehr Speicher benötigt.

Das Modell lässt sich über die Diffusers-Bibliothek oder ComfyUI betreiben und ist in die gängigen KI-Video-Workflows integriert. Die Stability AI Community License erlaubt den kommerziellen Einsatz unter bestimmten Bedingungen. SVD eignet sich ideal für Content-Creator, Produktvisualisierung und künstlerische Projekte.

Die stetige Weiterentwicklung durch Stability AI und die Community verspricht weitere Qualitätsverbesserungen. Die Integration in ComfyUI und andere populäre Interfaces macht SVD besonders benutzerfreundlich. Für professionelle Anwender bietet das Modell eine zuverlässige Basis für die Erstellung von Produktvideos, Social-Media-Content und visuellen Effekten, die vollständig lokal und ohne Cloud-Abhängigkeit produziert werden.

Fähigkeiten-Matrix

Was kann Stable Video Diffusion — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

4.5

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1.5B	16 GB	12 GB	✗ Nein	fp16	RTX 3060 12GB oder RTX 4070

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★☆☆ 3.0/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?