100% Lokal · DSGVO

CogVLM2

von Tsinghua University / Zhipu AI · Lizenz: apache-2.0 · Kommerziell nutzbar

Leistungsstarkes Vision-Language-Modell mit Video-Verständnis

3.5 Gesamt

Verfügbare Größen: 19B

Website HuggingFace

Was ist CogVLM2?

CogVLM2 ist ein fortschrittliches multimodales Modell von Tsinghua University und Zhipu AI, das sowohl Bilder als auch Videos verstehen und in natürlicher Sprache darüber kommunizieren kann. Als Nachfolger des bereits erfolgreichen CogVLM bringt die zweite Version erhebliche Verbesserungen bei der Bildauflösung (bis zu 1344x1344 Pixel), dem Kontextverständnis und der Genauigkeit der visuellen Beschreibungen. Das Modell ist in einer 19B-Parameter-Version verfügbar, die auf dem GLM-4-Sprachmodell aufbaut und einen leistungsfähigen Vision-Encoder integriert.

CogVLM2 unterstützt sowohl Einzelbild- als auch Video-Analyse und kann zeitliche Zusammenhänge in Videosequenzen erfassen. In OCR-Benchmarks und visuellen Frage-Antwort-Tests erreicht CogVLM2 Spitzenwerte und übertrifft viele größere kommerzielle Modelle. Besonders beeindruckend ist die Fähigkeit, komplexe Szenen zu beschreiben, Text in Bildern zu erkennen und logische Schlussfolgerungen aus visuellen Informationen zu ziehen.

Die Video-Variante kann bis zu 24 Frames verarbeiten und zeitliche Abläufe beschreiben. Für den lokalen Betrieb benötigt CogVLM2 mindestens 24 GB VRAM in der vollen Präzision, mit INT4-Quantisierung sind es etwa 12 GB. Die Integration erfolgt primär über die Hugging Face Transformers-Bibliothek, und auch vLLM unterstützt das Modell.

Die Lizenz erlaubt den kommerziellen Einsatz. Für alle, die lokale Bild- und Videoanalyse mit hoher Qualität benötigen und über entsprechende Hardware verfügen, ist CogVLM2 eine der besten Open-Source-Optionen.

Fähigkeiten-Matrix

Was kann CogVLM2 — und was nicht?

🇩🇪 Deutsch-Chat

2.0

🇬🇧 Englisch-Chat

3.5

🗣️ Multilingual

2.5

💻 Code-Generierung

1.5

🌍 Übersetzung

2.0

📋 Zusammenfassung

3.0

📄 RAG / Dokumente

2.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.5

🧮 Mathematik / Logik

2.5

✍️ Kreatives Schreiben

3.0

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
19B	32 GB	24 GB	✗ Nein	FP16	RTX 4090 24GB oder A5000
19B-INT4	16 GB	12 GB	✗ Nein	INT4	RTX 4060 Ti 16GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✓ vLLM

✗ Open WebUI

✓ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★☆☆ 3.0/5

RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?