100% Lokal · DSGVO

Qwen 3.5 35B MoE

von Alibaba Cloud (Qwen) · Lizenz: Apache 2.0 · Kommerziell nutzbar

Effizientes Mixture-of-Experts-Modell mit nur 3B aktiven Parametern

4.0 Gesamt

Verfügbare Größen: 35B-A3B MoE

ollama run qwen3.5:35b-a3b Website HuggingFace

Was ist Qwen 3.5 35B MoE?

Qwen 3.5 35B-A3B ist ein Mixture-of-Experts-Modell der Qwen-3.5-Generation, das 35 Milliarden Gesamtparameter umfasst, aber pro Token nur 3 Milliarden Parameter aktiviert. Diese Architektur ermöglicht die Wissenskapazität eines großen Modells bei der Inferenzgeschwindigkeit eines kleinen. Trotz der nur 3B aktiven Parameter profitiert das Modell von der gesamten Wissensbasis der 35B Parameter — die Experten-Module spezialisieren sich auf unterschiedliche Aufgabenbereiche und werden dynamisch aktiviert.

Die Hybrid-Attention-Architektur mit Gated Delta Networks sorgt für effiziente Long-Context-Verarbeitung bis 262.144 Tokens. Native Multimodalität ist integriert: Das Modell verarbeitet Text, Bilder und Video. Ein wichtiger Hinweis für den lokalen Betrieb: Obwohl nur 3B Parameter pro Token aktiv sind, müssen alle 35B Parameter im VRAM vorgehalten werden.

Bei Q4-Quantisierung sind das etwa 19,6 GB — eine RTX 4090 mit 24 GB reicht knapp, eine RTX 3090 ebenfalls. Die Inferenzgeschwindigkeit ist dank der geringen aktiven Parameter trotzdem sehr hoch. In Benchmarks positioniert sich das Modell zwischen den dichten 9B- und 27B-Varianten, wobei es bei bestimmten Spezialaufgaben die 27B-Version sogar übertreffen kann.

Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung. Function Calling und Tool Use funktionieren nativ. Für Anwender mit begrenztem VRAM, die trotzdem die Wissenstiefe eines großen Modells benötigen, ist die MoE-Variante eine ausgezeichnete Wahl — die schnelle Inferenz bei moderatem Ressourcenverbrauch macht es besonders attraktiv für interaktive Anwendungen und Agentic Workflows.

Fähigkeiten-Matrix

Was kann Qwen 3.5 35B MoE — und was nicht?

🇩🇪 Deutsch-Chat

4.0

🇬🇧 Englisch-Chat

4.5

🗣️ Multilingual

4.5

💻 Code-Generierung

4.0

🌍 Übersetzung

4.0

📋 Zusammenfassung

4.0

📄 RAG / Dokumente

4.0

🔧 Tool-Use / Function Calling

4.0

🌐 Browser-Automatisierung

3.0

👁️ Bildverständnis

3.5

🧮 Mathematik / Logik

4.0

✍️ Kreatives Schreiben

3.5

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, Go, Rust

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
?	? GB	? GB	✗ Nein	Q4_K_M	—
?	? GB	? GB	✗ Nein	Q4_K_M	—
?	? GB	? GB	✗ Nein	Q4_K_M	—

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

Weitere Qwen 3.5-Modelle

Qwen 3.5 27B

Multimodales Dense-Modell mit 262K Kontext und nativer Vision

0.8B 2B 4B 9B 27B 35B MoE 122B MoE 397B MoE

Details ansehen

Qwen 3.5 9B

Kompaktes multimodales Modell für Consumer-Hardware

0.8B 2B 4B 9B 27B 35B MoE 122B MoE 397B MoE

Details ansehen

War diese Übersicht hilfreich?