LLaVA 1.6
von LLaVA Team (Microsoft/Wisconsin) · Lizenz: Apache 2.0 · Kommerziell nutzbar
Open-Source Vision-Language-Modell für Bildanalyse und visuelles Reasoning
Was ist LLaVA 1.6?
LLaVA 1.6 (Large Language and Vision Assistant) ist eines der einflussreichsten Open-Source-Vision-Language-Modelle und kombiniert einen leistungsstarken Vision-Encoder mit einem Large Language Model für multimodale Bildverständnis-Aufgaben. Das Modell ist in mehreren Größen verfügbar — 7B, 13B und 34B Parameter — und nutzt je nach Variante Vicuna, Llama oder Yi als Sprachbackbone zusammen mit einem CLIP-ViT-L Vision-Encoder. LLaVA 1.6 (auch bekannt als LLaVA-NeXT) bringt gegenüber dem Vorgänger signifikante Verbesserungen: höhere Bildauflösung, verbesserte OCR-Fähigkeiten, besseres visuelles Reasoning und optimierte Instruktions-Befolgung.
Das Modell kann Bilder beschreiben, Fragen zu visuellen Inhalten beantworten, Text in Bildern erkennen, Diagramme interpretieren und komplexe visuelle Szenarien analysieren. Für die lokale Nutzung ist die 7B-Variante besonders attraktiv, da sie mit 8 bis 12 GB VRAM auskommt und über Ollama einfach installierbar ist. Die 34B-Variante bietet die beste Qualität, benötigt aber mindestens 24 GB VRAM.
LLaVA hat das Feld der Open-Source-VLMs maßgeblich geprägt und dient als Basis für zahlreiche spezialisierte Modelle. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung und macht LLaVA zur bevorzugten Wahl für lokale Bildanalyse-Anwendungen.
Fähigkeiten-Matrix
Was kann LLaVA 1.6 — und was nicht?
Unterstützte Programmiersprachen: Python
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 7B | 8 GB | 8 GB | ✓ Ja (langsam) | Q4_K_M | RTX 3060 8GB |
| 13B | 12 GB | 12 GB | ✓ Ja (langsam) | Q4_K_M | RTX 4070 12GB |
| 34B | 24 GB | 24 GB | ✗ Nein | Q4_K_M | RTX 4090 24GB |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?