100% Lokal · DSGVO

GLM-5.1

von Z.ai (ehemals Zhipu AI) · Lizenz: MIT · Kommerziell nutzbar

Chinas 744B Open-Source-Gigant mit MIT-Lizenz — #1 auf SWE-Bench Pro

4.5 Gesamt
Verfügbare Größen: 744B-A40B MoE

Was ist GLM-5.1?

GLM-5.1 ist das neueste Open-Source-Modell von Z.ai (ehemals Zhipu AI), veröffentlicht am 7. April 2026. Es basiert auf einer gewaltigen Mixture-of-Experts-Architektur mit 744 Milliarden Gesamtparametern, von denen pro Token etwa 40 Milliarden aktiviert werden.

Das Modell wurde vollständig auf Huawei Ascend-Chips trainiert — ohne eine einzige NVIDIA-GPU — und demonstriert damit die zunehmende Unabhängigkeit des chinesischen KI-Ökosystems von westlicher Hardware. Die Benchmark-Ergebnisse sind beeindruckend: Auf SWE-Bench Pro erreicht GLM-5.1 58,4% und übertrifft damit Claude Opus 4.6 (57,3%). Es ist eines der wenigen Open-Source-Modelle, das mit proprietären Frontier-Modellen auf Augenhöhe konkurriert.

Der Kontext umfasst 200.000 Tokens mit einer maximalen Ausgabelänge von 131.072 Tokens. GLM-5.1 ist unter der MIT-Lizenz veröffentlicht — eine der freizügigsten Open-Source-Lizenzen, die uneingeschränkte kommerzielle Nutzung, Modifikation und Weiterverteilung erlaubt. Für den lokalen Betrieb ist GLM-5.1 allerdings eine Herausforderung: Selbst mit aggressiver 2-Bit-Quantisierung benötigt das Modell etwa 220 GB Speicher.

Auf Consumer-Hardware ist der Betrieb praktisch unmöglich — man benötigt mindestens einen Apple Silicon Mac mit 192 GB Unified Memory oder ein Multi-GPU-Setup mit mehreren A100/H100. Die Inferenzgeschwindigkeit ist aufgrund der MoE-Architektur trotz der enormen Gesamtgröße akzeptabel, da nur 40B Parameter pro Token aktiv sind. Ollama bietet eine Integration an, allerdings sind die Hardware-Anforderungen der limitierende Faktor.

Für Teams mit entsprechender Server-Infrastruktur bietet GLM-5.1 eine kostenlose Alternative zu proprietären Frontier-Modellen auf höchstem Niveau.

Fähigkeiten-Matrix

Was kann GLM-5.1 — und was nicht?

🇩🇪 Deutsch-Chat
3.5
🇬🇧 Englisch-Chat
4.5
🗣️ Multilingual
4.0
💻 Code-Generierung
5.0
🌍 Übersetzung
3.5
📋 Zusammenfassung
4.5
📄 RAG / Dokumente
4.5
🔧 Tool-Use / Function Calling
4.5
🌐 Browser-Automatisierung
4.0
👁️ Bildverständnis
🧮 Mathematik / Logik
4.5
✍️ Kreatives Schreiben
4.0

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, Rust, Go, C#, PHP, SQL, Shell

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
? ? GB ? GB ✗ Nein Q4_K_M
? ? GB ? GB ✗ Nein Q4_K_M
? ? GB ? GB ✗ Nein Q4_K_M

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5
Inference-Speed ★★★☆☆ 3.0/5
RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?