100% Lokal · DSGVO

Llama 3.2 Vision

von Meta · Lizenz: llama-community · Kommerziell nutzbar

Multimodales Open-Source-Modell mit Bildverständnis von Meta

4.0 Gesamt

Verfügbare Größen: 11B 90B

ollama run llama3.2-vision:11b Website HuggingFace

Was ist Llama 3.2 Vision?

Llama 3.2 Vision ist Metas erstes multimodales Open-Source-Modell und ermöglicht die gleichzeitige Verarbeitung von Text und Bildern. In den Größen 11B und 90B verfügbar, kann das Modell Bilder analysieren, beschreiben, Fragen zu visuellen Inhalten beantworten und sogar Text aus Bildern extrahieren. Die Vision-Fähigkeiten sind beeindruckend — das Modell versteht komplexe Szenen, erkennt Objekte, liest Diagramme und kann Bildschirmfotos interpretieren.

Damit eröffnen sich zahlreiche Anwendungsfälle: automatische Bildbeschreibungen für Barrierefreiheit, Dokumentenanalyse, visuelles Question-Answering oder die Verarbeitung von Screenshots in automatisierten Workflows. Die 11B-Variante ist dabei besonders interessant, da sie mit etwa 8 GB VRAM auf einer einzelnen Consumer-GPU läuft und trotzdem starke Vision-Ergebnisse liefert. Die 90B-Version bietet nochmals bessere Qualität, benötigt aber entsprechend mehr Hardware.

Im reinen Textmodus erreicht Llama 3.2 Vision ebenfalls gute Werte — Englisch auf dem Niveau von 4.5, Deutsch solide bei 3.5. Die Lizenz erlaubt kommerzielle Nutzung, was das Modell für Unternehmen attraktiv macht, die Bildverarbeitung lokal und datenschutzkonform durchführen möchten. Über Ollama lässt sich das Modell mit einem Befehl installieren und unterstützt direkt die Übergabe von Bildern im Chat.

Für alle, die lokale multimodale KI ohne Cloud-Abhängigkeit suchen, ist Llama 3.2 Vision derzeit die beste Open-Source-Option.

Fähigkeiten-Matrix

Was kann Llama 3.2 Vision — und was nicht?

🇩🇪 Deutsch-Chat

3.5

🇬🇧 Englisch-Chat

4.5

🗣️ Multilingual

3.0

💻 Code-Generierung

3.0

🌍 Übersetzung

3.0

📋 Zusammenfassung

4.0

📄 RAG / Dokumente

3.5

🔧 Tool-Use / Function Calling

3.0

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.5

🧮 Mathematik / Logik

3.5

✍️ Kreatives Schreiben

3.5

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
11B	12 GB	8 GB	✗ Nein	Q4_K_M	RTX 3060 12GB
90B	64 GB	48 GB	✗ Nein	Q4_K_M	2x RTX 4090 oder A100 80GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

Weitere Llama-Modelle

Llama 4 Maverick

Metas großes MoE-Flaggschiff mit 400B Parametern und 128 Experten

400B MoE (17B aktiv)

Details ansehen

Llama 3.3

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

70B

Details ansehen

Llama 4 Scout

Metas effizientes MoE-Modell mit 109B Parametern und 16 Experten

109B MoE (17B aktiv)

Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B

Details ansehen

Llama 3.2

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

1B 3B

Details ansehen

Vicuna

Pionier der Open-Source-Chatbots — feinabgestimmtes Llama-Modell

7B 13B

Details ansehen

War diese Übersicht hilfreich?