100% Lokal · DSGVO

CogVideoX

von THUDM (Tsinghua University) · Lizenz: apache-2.0 · Kommerziell nutzbar

Leistungsstarkes Open-Source-Modell für lokale KI-Videogenerierung

4.0 Gesamt

Verfügbare Größen: 2B 5B

Website HuggingFace

Was ist CogVideoX?

CogVideoX ist eines der fortschrittlichsten Open-Source-Modelle für KI-Videogenerierung und wird vom THUDM-Team der Tsinghua-Universität entwickelt. Das Modell nutzt eine 3D-Variational-Autoencoder-Architektur in Kombination mit einem Expert-Transformer und kann aus Textbeschreibungen flüssige, kohärente Videos generieren. CogVideoX ist in verschiedenen Varianten verfügbar, darunter das kompaktere 2B-Modell und das leistungsstärkere 5B-Modell, das Videos mit höherer Qualität und besserer temporaler Konsistenz erzeugt.

Die generierten Videos haben eine Auflösung von bis zu 720x480 Pixeln bei 8 Frames pro Sekunde und einer Länge von etwa 6 Sekunden. Das Modell versteht komplexe Szenen, Bewegungsabläufe und Stiltransfers und kann sowohl realistische als auch stilisierte Videos erstellen. Für den lokalen Betrieb sind die Hardware-Anforderungen allerdings erheblich: Die 5B-Variante benötigt mindestens 24 GB VRAM, und die Generierung eines einzelnen Videos kann je nach Hardware mehrere Minuten dauern.

CogVideoX unterstützt auch Image-to-Video-Generierung, bei der ein Eingabebild als erster Frame verwendet und daraus ein Video extrapoliert wird. Die Apache-2.0-Lizenz ermöglicht kommerzielle Nutzung, was CogVideoX für Kreativagenturen, Content-Ersteller und Forschungseinrichtungen attraktiv macht. Die Integration erfolgt über die Diffusers-Bibliothek oder direkt über das offizielle Repository, und auf Hugging Face sind alle Modellvarianten samt Dokumentation verfügbar.

Für alle, die KI-Videogenerierung lokal und datenschutzkonform betreiben möchten, ist CogVideoX derzeit eine der besten verfügbaren Optionen.

Fähigkeiten-Matrix

Was kann CogVideoX — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.5

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

4.5

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
5B	32 GB	24 GB	✗ Nein	FP16	RTX 4090 24GB oder A100 40GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★☆☆ 3.0/5

RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?