100% Lokal · DSGVO

LLaVA 1.6

von LLaVA Team (Microsoft/Wisconsin) · Lizenz: Apache 2.0 · Kommerziell nutzbar

Open-Source Vision-Language-Modell für Bildanalyse und visuelles Reasoning

4.0 Gesamt

Verfügbare Größen: 7B 13B 34B

ollama run llava Website HuggingFace

Was ist LLaVA 1.6?

LLaVA 1.6 (Large Language and Vision Assistant) ist eines der einflussreichsten Open-Source-Vision-Language-Modelle und kombiniert einen leistungsstarken Vision-Encoder mit einem Large Language Model für multimodale Bildverständnis-Aufgaben. Das Modell ist in mehreren Größen verfügbar — 7B, 13B und 34B Parameter — und nutzt je nach Variante Vicuna, Llama oder Yi als Sprachbackbone zusammen mit einem CLIP-ViT-L Vision-Encoder. LLaVA 1.6 (auch bekannt als LLaVA-NeXT) bringt gegenüber dem Vorgänger signifikante Verbesserungen: höhere Bildauflösung, verbesserte OCR-Fähigkeiten, besseres visuelles Reasoning und optimierte Instruktions-Befolgung.

Das Modell kann Bilder beschreiben, Fragen zu visuellen Inhalten beantworten, Text in Bildern erkennen, Diagramme interpretieren und komplexe visuelle Szenarien analysieren. Für die lokale Nutzung ist die 7B-Variante besonders attraktiv, da sie mit 8 bis 12 GB VRAM auskommt und über Ollama einfach installierbar ist. Die 34B-Variante bietet die beste Qualität, benötigt aber mindestens 24 GB VRAM.

LLaVA hat das Feld der Open-Source-VLMs maßgeblich geprägt und dient als Basis für zahlreiche spezialisierte Modelle. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung und macht LLaVA zur bevorzugten Wahl für lokale Bildanalyse-Anwendungen.

Fähigkeiten-Matrix

Was kann LLaVA 1.6 — und was nicht?

🇩🇪 Deutsch-Chat

3.0

🇬🇧 Englisch-Chat

4.0

🗣️ Multilingual

3.0

💻 Code-Generierung

2.0

🌍 Übersetzung

2.0

📋 Zusammenfassung

3.5

📄 RAG / Dokumente

3.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.5

🧮 Mathematik / Logik

2.5

✍️ Kreatives Schreiben

2.5

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
7B	8 GB	8 GB	✓ Ja (langsam)	Q4_K_M	RTX 3060 8GB
13B	12 GB	12 GB	✓ Ja (langsam)	Q4_K_M	RTX 4070 12GB
34B	24 GB	24 GB	✗ Nein	Q4_K_M	RTX 4090 24GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?