100% Lokal · DSGVO

CogVLM2

von Tsinghua University / Zhipu AI · Lizenz: apache-2.0 · Kommerziell nutzbar

Leistungsstarkes Vision-Language-Modell mit Video-Verständnis

3.5 Gesamt
Verfügbare Größen: 19B

Was ist CogVLM2?

CogVLM2 ist ein fortschrittliches multimodales Modell von Tsinghua University und Zhipu AI, das sowohl Bilder als auch Videos verstehen und in natürlicher Sprache darüber kommunizieren kann. Als Nachfolger des bereits erfolgreichen CogVLM bringt die zweite Version erhebliche Verbesserungen bei der Bildauflösung (bis zu 1344x1344 Pixel), dem Kontextverständnis und der Genauigkeit der visuellen Beschreibungen. Das Modell ist in einer 19B-Parameter-Version verfügbar, die auf dem GLM-4-Sprachmodell aufbaut und einen leistungsfähigen Vision-Encoder integriert.

CogVLM2 unterstützt sowohl Einzelbild- als auch Video-Analyse und kann zeitliche Zusammenhänge in Videosequenzen erfassen. In OCR-Benchmarks und visuellen Frage-Antwort-Tests erreicht CogVLM2 Spitzenwerte und übertrifft viele größere kommerzielle Modelle. Besonders beeindruckend ist die Fähigkeit, komplexe Szenen zu beschreiben, Text in Bildern zu erkennen und logische Schlussfolgerungen aus visuellen Informationen zu ziehen.

Die Video-Variante kann bis zu 24 Frames verarbeiten und zeitliche Abläufe beschreiben. Für den lokalen Betrieb benötigt CogVLM2 mindestens 24 GB VRAM in der vollen Präzision, mit INT4-Quantisierung sind es etwa 12 GB. Die Integration erfolgt primär über die Hugging Face Transformers-Bibliothek, und auch vLLM unterstützt das Modell.

Die Lizenz erlaubt den kommerziellen Einsatz. Für alle, die lokale Bild- und Videoanalyse mit hoher Qualität benötigen und über entsprechende Hardware verfügen, ist CogVLM2 eine der besten Open-Source-Optionen.

Fähigkeiten-Matrix

Was kann CogVLM2 — und was nicht?

🇩🇪 Deutsch-Chat
2.0
🇬🇧 Englisch-Chat
3.5
🗣️ Multilingual
2.5
💻 Code-Generierung
1.5
🌍 Übersetzung
2.0
📋 Zusammenfassung
3.0
📄 RAG / Dokumente
2.0
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.5
🧮 Mathematik / Logik
2.5
✍️ Kreatives Schreiben
3.0

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
19B 32 GB 24 GB ✗ Nein FP16 RTX 4090 24GB oder A5000
19B-INT4 16 GB 12 GB ✗ Nein INT4 RTX 4060 Ti 16GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5
Inference-Speed ★★★☆☆ 3.0/5
RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?