100% Lokal · DSGVO

CogVideoX

von THUDM (Tsinghua University) · Lizenz: apache-2.0 · Kommerziell nutzbar

Leistungsstarkes Open-Source-Modell für lokale KI-Videogenerierung

4.0 Gesamt
Verfügbare Größen: 2B 5B

Was ist CogVideoX?

CogVideoX ist eines der fortschrittlichsten Open-Source-Modelle für KI-Videogenerierung und wird vom THUDM-Team der Tsinghua-Universität entwickelt. Das Modell nutzt eine 3D-Variational-Autoencoder-Architektur in Kombination mit einem Expert-Transformer und kann aus Textbeschreibungen flüssige, kohärente Videos generieren. CogVideoX ist in verschiedenen Varianten verfügbar, darunter das kompaktere 2B-Modell und das leistungsstärkere 5B-Modell, das Videos mit höherer Qualität und besserer temporaler Konsistenz erzeugt.

Die generierten Videos haben eine Auflösung von bis zu 720x480 Pixeln bei 8 Frames pro Sekunde und einer Länge von etwa 6 Sekunden. Das Modell versteht komplexe Szenen, Bewegungsabläufe und Stiltransfers und kann sowohl realistische als auch stilisierte Videos erstellen. Für den lokalen Betrieb sind die Hardware-Anforderungen allerdings erheblich: Die 5B-Variante benötigt mindestens 24 GB VRAM, und die Generierung eines einzelnen Videos kann je nach Hardware mehrere Minuten dauern.

CogVideoX unterstützt auch Image-to-Video-Generierung, bei der ein Eingabebild als erster Frame verwendet und daraus ein Video extrapoliert wird. Die Apache-2.0-Lizenz ermöglicht kommerzielle Nutzung, was CogVideoX für Kreativagenturen, Content-Ersteller und Forschungseinrichtungen attraktiv macht. Die Integration erfolgt über die Diffusers-Bibliothek oder direkt über das offizielle Repository, und auf Hugging Face sind alle Modellvarianten samt Dokumentation verfügbar.

Für alle, die KI-Videogenerierung lokal und datenschutzkonform betreiben möchten, ist CogVideoX derzeit eine der besten verfügbaren Optionen.

Fähigkeiten-Matrix

Was kann CogVideoX — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.5
🧮 Mathematik / Logik
✍️ Kreatives Schreiben
4.5

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
5B 32 GB 24 GB ✗ Nein FP16 RTX 4090 24GB oder A100 40GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5
Inference-Speed ★★★☆☆ 3.0/5
RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?