100% Lokal · DSGVO

LLaVA 1.6

von LLaVA Team (Microsoft/Wisconsin) · Lizenz: Apache 2.0 · Kommerziell nutzbar

Open-Source Vision-Language-Modell für Bildanalyse und visuelles Reasoning

4.0 Gesamt
Verfügbare Größen: 7B 13B 34B

Was ist LLaVA 1.6?

LLaVA 1.6 (Large Language and Vision Assistant) ist eines der einflussreichsten Open-Source-Vision-Language-Modelle und kombiniert einen leistungsstarken Vision-Encoder mit einem Large Language Model für multimodale Bildverständnis-Aufgaben. Das Modell ist in mehreren Größen verfügbar — 7B, 13B und 34B Parameter — und nutzt je nach Variante Vicuna, Llama oder Yi als Sprachbackbone zusammen mit einem CLIP-ViT-L Vision-Encoder. LLaVA 1.6 (auch bekannt als LLaVA-NeXT) bringt gegenüber dem Vorgänger signifikante Verbesserungen: höhere Bildauflösung, verbesserte OCR-Fähigkeiten, besseres visuelles Reasoning und optimierte Instruktions-Befolgung.

Das Modell kann Bilder beschreiben, Fragen zu visuellen Inhalten beantworten, Text in Bildern erkennen, Diagramme interpretieren und komplexe visuelle Szenarien analysieren. Für die lokale Nutzung ist die 7B-Variante besonders attraktiv, da sie mit 8 bis 12 GB VRAM auskommt und über Ollama einfach installierbar ist. Die 34B-Variante bietet die beste Qualität, benötigt aber mindestens 24 GB VRAM.

LLaVA hat das Feld der Open-Source-VLMs maßgeblich geprägt und dient als Basis für zahlreiche spezialisierte Modelle. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung und macht LLaVA zur bevorzugten Wahl für lokale Bildanalyse-Anwendungen.

Fähigkeiten-Matrix

Was kann LLaVA 1.6 — und was nicht?

🇩🇪 Deutsch-Chat
3.0
🇬🇧 Englisch-Chat
4.0
🗣️ Multilingual
3.0
💻 Code-Generierung
2.0
🌍 Übersetzung
2.0
📋 Zusammenfassung
3.5
📄 RAG / Dokumente
3.0
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.5
🧮 Mathematik / Logik
2.5
✍️ Kreatives Schreiben
2.5

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
7B 8 GB 8 GB ✓ Ja (langsam) Q4_K_M RTX 3060 8GB
13B 12 GB 12 GB ✓ Ja (langsam) Q4_K_M RTX 4070 12GB
34B 24 GB 24 GB ✗ Nein Q4_K_M RTX 4090 24GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5
Inference-Speed ★★★☆☆ 3.5/5
RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?