100% Lokal · DSGVO

Llama 3.2 Vision

von Meta · Lizenz: llama-community · Kommerziell nutzbar

Multimodales Open-Source-Modell mit Bildverständnis von Meta

4.0 Gesamt
Verfügbare Größen: 11B 90B

Was ist Llama 3.2 Vision?

Llama 3.2 Vision ist Metas erstes multimodales Open-Source-Modell und ermöglicht die gleichzeitige Verarbeitung von Text und Bildern. In den Größen 11B und 90B verfügbar, kann das Modell Bilder analysieren, beschreiben, Fragen zu visuellen Inhalten beantworten und sogar Text aus Bildern extrahieren. Die Vision-Fähigkeiten sind beeindruckend — das Modell versteht komplexe Szenen, erkennt Objekte, liest Diagramme und kann Bildschirmfotos interpretieren.

Damit eröffnen sich zahlreiche Anwendungsfälle: automatische Bildbeschreibungen für Barrierefreiheit, Dokumentenanalyse, visuelles Question-Answering oder die Verarbeitung von Screenshots in automatisierten Workflows. Die 11B-Variante ist dabei besonders interessant, da sie mit etwa 8 GB VRAM auf einer einzelnen Consumer-GPU läuft und trotzdem starke Vision-Ergebnisse liefert. Die 90B-Version bietet nochmals bessere Qualität, benötigt aber entsprechend mehr Hardware.

Im reinen Textmodus erreicht Llama 3.2 Vision ebenfalls gute Werte — Englisch auf dem Niveau von 4.5, Deutsch solide bei 3.5. Die Lizenz erlaubt kommerzielle Nutzung, was das Modell für Unternehmen attraktiv macht, die Bildverarbeitung lokal und datenschutzkonform durchführen möchten. Über Ollama lässt sich das Modell mit einem Befehl installieren und unterstützt direkt die Übergabe von Bildern im Chat.

Für alle, die lokale multimodale KI ohne Cloud-Abhängigkeit suchen, ist Llama 3.2 Vision derzeit die beste Open-Source-Option.

Fähigkeiten-Matrix

Was kann Llama 3.2 Vision — und was nicht?

🇩🇪 Deutsch-Chat
3.5
🇬🇧 Englisch-Chat
4.5
🗣️ Multilingual
3.0
💻 Code-Generierung
3.0
🌍 Übersetzung
3.0
📋 Zusammenfassung
4.0
📄 RAG / Dokumente
3.5
🔧 Tool-Use / Function Calling
3.0
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.5
🧮 Mathematik / Logik
3.5
✍️ Kreatives Schreiben
3.5

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
11B 12 GB 8 GB ✗ Nein Q4_K_M RTX 3060 12GB
90B 64 GB 48 GB ✗ Nein Q4_K_M 2x RTX 4090 oder A100 80GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★☆☆ 3.5/5
RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

Weitere Llama-Modelle

Llama 3.3

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

70B
Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B
Details ansehen

Llama 3.2

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

1B 3B
Details ansehen

War diese Übersicht hilfreich?