100% Lokal · DSGVO

GLM-5.1

von Z.ai (ehemals Zhipu AI) · Lizenz: MIT · Kommerziell nutzbar

Chinas 744B Open-Source-Gigant mit MIT-Lizenz — #1 auf SWE-Bench Pro

4.5 Gesamt

Verfügbare Größen: 744B-A40B MoE

ollama run glm-5.1 Website HuggingFace

Was ist GLM-5.1?

GLM-5.1 ist das neueste Open-Source-Modell von Z.ai (ehemals Zhipu AI), veröffentlicht am 7. April 2026. Es basiert auf einer gewaltigen Mixture-of-Experts-Architektur mit 744 Milliarden Gesamtparametern, von denen pro Token etwa 40 Milliarden aktiviert werden.

Das Modell wurde vollständig auf Huawei Ascend-Chips trainiert — ohne eine einzige NVIDIA-GPU — und demonstriert damit die zunehmende Unabhängigkeit des chinesischen KI-Ökosystems von westlicher Hardware. Die Benchmark-Ergebnisse sind beeindruckend: Auf SWE-Bench Pro erreicht GLM-5.1 58,4% und übertrifft damit Claude Opus 4.6 (57,3%). Es ist eines der wenigen Open-Source-Modelle, das mit proprietären Frontier-Modellen auf Augenhöhe konkurriert.

Der Kontext umfasst 200.000 Tokens mit einer maximalen Ausgabelänge von 131.072 Tokens. GLM-5.1 ist unter der MIT-Lizenz veröffentlicht — eine der freizügigsten Open-Source-Lizenzen, die uneingeschränkte kommerzielle Nutzung, Modifikation und Weiterverteilung erlaubt. Für den lokalen Betrieb ist GLM-5.1 allerdings eine Herausforderung: Selbst mit aggressiver 2-Bit-Quantisierung benötigt das Modell etwa 220 GB Speicher.

Auf Consumer-Hardware ist der Betrieb praktisch unmöglich — man benötigt mindestens einen Apple Silicon Mac mit 192 GB Unified Memory oder ein Multi-GPU-Setup mit mehreren A100/H100. Die Inferenzgeschwindigkeit ist aufgrund der MoE-Architektur trotz der enormen Gesamtgröße akzeptabel, da nur 40B Parameter pro Token aktiv sind. Ollama bietet eine Integration an, allerdings sind die Hardware-Anforderungen der limitierende Faktor.

Für Teams mit entsprechender Server-Infrastruktur bietet GLM-5.1 eine kostenlose Alternative zu proprietären Frontier-Modellen auf höchstem Niveau.

Fähigkeiten-Matrix

Was kann GLM-5.1 — und was nicht?

🇩🇪 Deutsch-Chat

3.5

🇬🇧 Englisch-Chat

4.5

🗣️ Multilingual

4.0

💻 Code-Generierung

5.0

🌍 Übersetzung

3.5

📋 Zusammenfassung

4.5

📄 RAG / Dokumente

4.5

🔧 Tool-Use / Function Calling

4.5

🌐 Browser-Automatisierung

4.0

👁️ Bildverständnis

—

🧮 Mathematik / Logik

4.5

✍️ Kreatives Schreiben

4.0

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, Rust, Go, C#, PHP, SQL, Shell

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
?	? GB	? GB	✗ Nein	Q4_K_M	—
?	? GB	? GB	✗ Nein	Q4_K_M	—
?	? GB	? GB	✗ Nein	Q4_K_M	—

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★☆☆ 3.0/5

RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

Weitere GLM-5-Modelle

GLM-5.1 Chat

Chinesisches Open-Source-Modell mit exzellentem Tool-Calling und Agentic-AI-Fähigkeiten

9B 32B 130B

Details ansehen

War diese Übersicht hilfreich?