Llama 3.2 Vision
von Meta · Lizenz: llama-community · Kommerziell nutzbar
Multimodales Open-Source-Modell mit Bildverständnis von Meta
Was ist Llama 3.2 Vision?
Llama 3.2 Vision ist Metas erstes multimodales Open-Source-Modell und ermöglicht die gleichzeitige Verarbeitung von Text und Bildern. In den Größen 11B und 90B verfügbar, kann das Modell Bilder analysieren, beschreiben, Fragen zu visuellen Inhalten beantworten und sogar Text aus Bildern extrahieren. Die Vision-Fähigkeiten sind beeindruckend — das Modell versteht komplexe Szenen, erkennt Objekte, liest Diagramme und kann Bildschirmfotos interpretieren.
Damit eröffnen sich zahlreiche Anwendungsfälle: automatische Bildbeschreibungen für Barrierefreiheit, Dokumentenanalyse, visuelles Question-Answering oder die Verarbeitung von Screenshots in automatisierten Workflows. Die 11B-Variante ist dabei besonders interessant, da sie mit etwa 8 GB VRAM auf einer einzelnen Consumer-GPU läuft und trotzdem starke Vision-Ergebnisse liefert. Die 90B-Version bietet nochmals bessere Qualität, benötigt aber entsprechend mehr Hardware.
Im reinen Textmodus erreicht Llama 3.2 Vision ebenfalls gute Werte — Englisch auf dem Niveau von 4.5, Deutsch solide bei 3.5. Die Lizenz erlaubt kommerzielle Nutzung, was das Modell für Unternehmen attraktiv macht, die Bildverarbeitung lokal und datenschutzkonform durchführen möchten. Über Ollama lässt sich das Modell mit einem Befehl installieren und unterstützt direkt die Übergabe von Bildern im Chat.
Für alle, die lokale multimodale KI ohne Cloud-Abhängigkeit suchen, ist Llama 3.2 Vision derzeit die beste Open-Source-Option.
Fähigkeiten-Matrix
Was kann Llama 3.2 Vision — und was nicht?
Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 11B | 12 GB | 8 GB | ✗ Nein | Q4_K_M | RTX 3060 12GB |
| 90B | 64 GB | 48 GB | ✗ Nein | Q4_K_M | 2x RTX 4090 oder A100 80GB |
Kompatibilität
Bewertung
Weitere Llama-Modelle
War diese Übersicht hilfreich?