100% Lokal · DSGVO

Vicuna

von LMSYS · Lizenz: llama-2-community · Kommerziell nutzbar

Pionier der Open-Source-Chatbots — feinabgestimmtes Llama-Modell

3.0 Gesamt

Verfügbare Größen: 7B 13B

ollama run vicuna Website HuggingFace

Was ist Vicuna?

Vicuna ist eines der einflussreichsten Open-Source-Sprachmodelle und war einer der ersten erfolgreichen Versuche, ein mit ChatGPT vergleichbares Konversationsmodell frei verfügbar zu machen. Entwickelt vom LMSYS-Team (UC Berkeley, CMU, Stanford und UCSD), basiert Vicuna auf Metas Llama-Architektur und wurde auf einer kuratierten Sammlung von Konversationsdaten feinabgestimmt. Das Modell ist in Varianten mit 7B und 13B Parametern verfügbar und hat bei seiner Veröffentlichung gezeigt, dass auch offene Modelle eine bemerkenswerte Konversationsqualität erreichen können.

In Blindtests bewerteten Nutzer Vicuna-13B als gleichwertig oder besser als viele kommerzielle Alternativen seiner Zeit. Besonders beeindruckend ist die natürliche, flüssige Art der Konversation — Vicuna antwortet ausführlich, höflich und kontextsensitiv. Die deutsche Sprachunterstützung ist grundlegend vorhanden, aber deutlich schwächer als bei neueren multilingualen Modellen.

Für englischsprachige Konversationen und kreative Textgenerierung bleibt Vicuna jedoch eine solide Wahl. Die Hardware-Anforderungen sind je nach Variante moderat: Die 7B-Version läuft quantisiert bereits mit 6 GB VRAM, die 13B-Version benötigt etwa 10 GB. Vicuna hat als Grundlage für zahlreiche Weiterentwicklungen und Finetunes gedient und ist in der Open-Source-KI-Community fest verankert.

Über Ollama und LM Studio ist es einfach zu installieren. Obwohl es inzwischen leistungsstärkere Modelle gibt, bleibt Vicuna ein historisch bedeutsames Modell und für einfache Konversationsaufgaben nach wie vor brauchbar.

Fähigkeiten-Matrix

Was kann Vicuna — und was nicht?

🇩🇪 Deutsch-Chat

2.0

🇬🇧 Englisch-Chat

3.5

🗣️ Multilingual

2.0

💻 Code-Generierung

2.0

🌍 Übersetzung

2.0

📋 Zusammenfassung

3.0

📄 RAG / Dokumente

2.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

1.5

✍️ Kreatives Schreiben

3.5

Unterstützte Programmiersprachen: Python, JavaScript

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
7B	8 GB	6 GB	✓ Ja (langsam)	Q4_K_M	RTX 3060 12GB
13B	16 GB	10 GB	✓ Ja (langsam)	Q4_K_M	RTX 3060 12GB oder RTX 4060 Ti 16GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.0/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.0/5

Weitere Llama-Modelle

Llama 4 Maverick

Metas großes MoE-Flaggschiff mit 400B Parametern und 128 Experten

400B MoE (17B aktiv)

Details ansehen

Llama 3.3

Metas bester Open-Source-Allrounder mit 70 Milliarden Parametern

70B

Details ansehen

Llama 4 Scout

Metas effizientes MoE-Modell mit 109B Parametern und 16 Experten

109B MoE (17B aktiv)

Details ansehen

Llama 3.2 Vision

Multimodales Open-Source-Modell mit Bildverständnis von Meta

11B 90B

Details ansehen

CodeLlama

Metas spezialisierter Code-Assistent auf Llama-Basis

7B 34B 70B

Details ansehen

Llama 3.2

Kompakte Sprachmodelle für schwache Hardware und Edge-Geräte

1B 3B

Details ansehen

War diese Übersicht hilfreich?