100% Lokal · DSGVO

Zephyr

von Hugging Face · Lizenz: Apache 2.0 · Kommerziell nutzbar

DPO-optimiertes Chat-Modell mit herausragender Alignment-Qualität

4.0 Gesamt

Verfügbare Größen: 7B

ollama run zephyr Website HuggingFace

Was ist Zephyr?

Zephyr ist Hugging Faces hauseigenes Chat-Modell, das durch Direct Preference Optimization (DPO) eine bemerkenswerte Alignment-Qualität erreicht. Basierend auf Mistral 7B wurde Zephyr in einem dreistufigen Prozess trainiert: zunächst Supervised Fine-Tuning auf hochwertigen Chat-Daten, dann DPO mit KI-generiertem Feedback, und schliesslich eine Optimierung für hilfreiche und sichere Antworten. Das Ergebnis ist ein 7B-Modell, das bei MT-Bench und AlpacaEval mit deutlich größeren Modellen konkurriert und besonders natuerliche, hilfreiche Konversationen fuehrt.

Zephyr zeichnet sich durch klare, strukturierte Antworten aus und vermeidet übertriebene Vorsicht, die bei manchen RLHF-optimierten Modellen auftritt. Das Modell laeuft quantisiert bereits mit 6 GB VRAM und ist somit auf Consumer-Hardware einsetzbar. Die Apache-2.0-Lizenz erlaubt den uneingeschraenkten kommerziellen Einsatz.

Zephyr ist in Ollama, LM Studio und allen gängigen lokalen Inferenz-Frameworks verfügbar. Die deutsche Sprachunterstützung profitiert vom Mistral-Backbone und ist für ein 7B-Modell solide. Für Anwender, die einen gut abgestimmten, hilfreichen Chatbot lokal betreiben möchten, ist Zephyr eine hervorragende Wahl mit niedrigen Hardware-Anforderungen.

Die DPO-Trainingsmethode hat sich seit Zephyrs Veröffentlichung als Standard für Chat-Modelle etabliert und viele nachfolgende Modelle beeinflusst. Für kleine Unternehmen und Entwickler bietet Zephyr einen qualitativ hochwertigen lokalen Chatbot, der ohne teure API-Abonnements auskommt und vollständige Datenkontrolle ermöglicht.

Fähigkeiten-Matrix

Was kann Zephyr — und was nicht?

🇩🇪 Deutsch-Chat

3.0

🇬🇧 Englisch-Chat

4.5

🗣️ Multilingual

3.0

💻 Code-Generierung

3.0

🌍 Übersetzung

2.5

📋 Zusammenfassung

4.0

📄 RAG / Dokumente

3.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

3.0

✍️ Kreatives Schreiben

4.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
7B	6 GB	6 GB	✓ Ja (langsam)	Q4_K_M	RTX 3060 12GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

War diese Übersicht hilfreich?