100% Lokal · DSGVO

Llama 3.2

von Meta · Lizenz: llama-community · Kommerziell nutzbar

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

3.0 Gesamt

Verfügbare Größen: 1B 3B

ollama run llama3.2:3b Website HuggingFace

Was ist Llama 3.2?

Llama 3.2 in den Varianten 1B und 3B ist Metas Antwort auf die wachsende Nachfrage nach kleinen, effizienten Sprachmodellen, die auch auf schwacher Hardware laufen. Mit nur 1 bis 3 Milliarden Parametern können diese Modelle selbst auf älteren Laptops, Raspberry Pis oder sogar Smartphones betrieben werden — die 3B-Variante benötigt lediglich 4 GB RAM. Trotz der geringen Größe liefert Llama 3.2 überraschend brauchbare Ergebnisse für einfache Konversationen, Textzusammenfassungen und grundlegende Aufgaben.

Die englische Sprachqualität ist für die Modellgröße beeindruckend, während Deutsch zwar funktioniert, aber deutlich hinter größeren Modellen zurückbleibt. Für Code-Generierung ist das Modell nur bedingt geeignet — einfache Snippets gelingen, aber komplexere Programmieraufgaben überfordern die geringe Parameteranzahl. Der große Vorteil von Llama 3.2 liegt in der extrem niedrigen Einstiegshürde: Kein teurer GPU nötig, kein Cloud-Abo, einfach auf dem vorhandenen Rechner starten.

Unter der Llama-Community-Lizenz ist kommerzielle Nutzung erlaubt, was das Modell auch für Startups und kleine Unternehmen interessant macht, die erste KI-Experimente starten möchten. Die Integration mit Ollama ist nahtlos — ein einfaches 'ollama pull llama3.2:3b' genügt. Ideal für Prototyping, Edge-Deployments, lokale Chatbots mit begrenzten Ressourcen oder als schneller lokaler Assistent für einfache Aufgaben.

Wer mehr Qualität braucht, sollte jedoch zu größeren Modellen greifen.

Fähigkeiten-Matrix

Was kann Llama 3.2 — und was nicht?

🇩🇪 Deutsch-Chat

2.5

🇬🇧 Englisch-Chat

3.5

🗣️ Multilingual

2.0

💻 Code-Generierung

2.0

🌍 Übersetzung

2.0

📋 Zusammenfassung

3.0

📄 RAG / Dokumente

2.0

🔧 Tool-Use / Function Calling

1.5

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

2.0

✍️ Kreatives Schreiben

2.5

Unterstützte Programmiersprachen: Python, JavaScript, Java

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1B	2 GB	2 GB	✓ Ja (langsam)	Q4_K_M	Keine GPU nötig
3B	4 GB	4 GB	✓ Ja (langsam)	Q4_K_M	Keine GPU nötig, optional iGPU

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★☆☆☆ 2.5/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Llama-Modelle

Llama 4 Maverick

Metas großes MoE-Flaggschiff mit 400B Parametern und 128 Experten

400B MoE (17B aktiv)

Details ansehen

Llama 3.3

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

70B

Details ansehen

Llama 4 Scout

Metas effizientes MoE-Modell mit 109B Parametern und 16 Experten

109B MoE (17B aktiv)

Details ansehen

Llama 3.2 Vision

Multimodales Open-Source-Modell mit Bildverständnis von Meta

11B 90B

Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B

Details ansehen

Vicuna

Pionier der Open-Source-Chatbots — feinabgestimmtes Llama-Modell

7B 13B

Details ansehen

War diese Übersicht hilfreich?