100% Lokal · DSGVO

Llama 3.3

von Meta · Lizenz: apache-2.0 · Kommerziell nutzbar

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

4.5 Gesamt

Verfügbare Größen: 70B

ollama run llama3.3:70b Website HuggingFace

Was ist Llama 3.3?

Llama 3.3 ist das Flaggschiff-Modell von Meta und gilt als einer der besten Open-Source-Allrounder auf dem Markt. Mit 70 Milliarden Parametern bietet es eine beeindruckende Leistung, die in vielen Benchmarks mit geschlossenen Modellen wie GPT-4 konkurriert. Das Modell wurde auf einem riesigen Datensatz von über 15 Billionen Tokens trainiert und beherrscht eine Vielzahl von Aufgaben — von komplexen Konversationen über Code-Generierung bis hin zu mathematischen Problemlösungen und analytischem Denken.

Besonders hervorzuheben ist die starke Leistung in englischsprachigen Aufgaben, wo Llama 3.3 eine nahezu perfekte Qualität liefert. Auch auf Deutsch funktioniert das Modell gut, wenngleich es hier nicht ganz an die englische Qualität heranreicht. Für Entwickler ist Llama 3.3 besonders attraktiv, da es unter der Apache-2.0-Lizenz veröffentlicht wurde und somit uneingeschränkt kommerziell genutzt werden darf.

Die Hardware-Anforderungen sind mit 40 GB VRAM (oder ca. 24 GB bei Q4-Quantisierung) allerdings nicht unerheblich — eine RTX 4090 oder besser ist für flüssigen Betrieb empfehlenswert. Dank hervorragender Unterstützung durch Ollama, LM Studio und andere lokale Inference-Tools lässt sich Llama 3.3 problemlos auf entsprechender Hardware betreiben.

Function Calling und RAG werden ebenfalls gut unterstützt, was das Modell zu einer ausgezeichneten Basis für lokale KI-Agenten und Assistenten macht. Für alle, die das bestmögliche Open-Source-Modell lokal betreiben wollen und über ausreichend Hardware verfügen, ist Llama 3.3 die erste Wahl.

Fähigkeiten-Matrix

Was kann Llama 3.3 — und was nicht?

🇩🇪 Deutsch-Chat

4.0

🇬🇧 Englisch-Chat

5.0

🗣️ Multilingual

3.5

💻 Code-Generierung

4.5

🌍 Übersetzung

3.5

📋 Zusammenfassung

4.5

📄 RAG / Dokumente

4.0

🔧 Tool-Use / Function Calling

4.0

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

4.5

✍️ Kreatives Schreiben

4.0

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, C#, Go, Rust, PHP, SQL

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
70B	48 GB	40 GB	✗ Nein	Q4_K_M	RTX 4090 24GB (quantisiert) oder 2x RTX 3090

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★☆☆ 3.0/5

RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

Weitere Llama-Modelle

Llama 4 Maverick

Metas großes MoE-Flaggschiff mit 400B Parametern und 128 Experten

400B MoE (17B aktiv)

Details ansehen

Llama 4 Scout

Metas effizientes MoE-Modell mit 109B Parametern und 16 Experten

109B MoE (17B aktiv)

Details ansehen

Llama 3.2 Vision

Multimodales Open-Source-Modell mit Bildverständnis von Meta

11B 90B

Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B

Details ansehen

Llama 3.2

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

1B 3B

Details ansehen

Vicuna

Pionier der Open-Source-Chatbots — feinabgestimmtes Llama-Modell

7B 13B

Details ansehen

War diese Übersicht hilfreich?