100% Lokal · DSGVO

Qwen 3.5 9B

von Alibaba Cloud (Qwen) · Lizenz: Apache 2.0 · Kommerziell nutzbar

Kompaktes multimodales Modell für Consumer-Hardware

4.0 Gesamt

Verfügbare Größen: 0.8B 2B 4B 9B 27B 35B MoE 122B MoE 397B MoE

ollama run qwen3.5:9b Website HuggingFace

Was ist Qwen 3.5 9B?

Qwen 3.5 9B ist das optimale Mittelklasse-Modell der Qwen-3.5-Familie und bietet ein hervorragendes Verhältnis von Leistung zu Ressourcenverbrauch. Mit 9 Milliarden Parametern in einer dichten Architektur läuft es flüssig auf Consumer-GPUs ab 6 GB VRAM bei Q4-Quantisierung. Trotz seiner kompakten Größe profitiert es von der innovativen Hybrid-Attention-Architektur der Qwen-3.5-Generation, die Gated Delta Networks mit Feed-Forward-Netzwerken kombiniert.

Das Modell unterstützt native Multimodalität — es verarbeitet Text, Bilder und Video ohne separate Adapter, was für ein 9B-Modell bemerkenswert ist. Der Kontext umfasst 262.144 Tokens, was für die meisten Anwendungsfälle mehr als ausreichend ist. In Benchmarks übertrifft es deutlich ältere Modelle gleicher Größe und erreicht bei vielen Aufgaben die Qualität von Modellen mit doppelter Parameterzahl.

Die multilinguale Unterstützung umfasst über 201 Sprachen, wobei Deutsch gut funktioniert — allerdings nicht ganz auf dem Niveau der größeren 27B-Variante. Hybrides Denken wird unterstützt: Im Thinking-Modus durchläuft das Modell einen strukturierten Chain-of-Thought-Prozess für komplexere Aufgaben. Function Calling und Tool Use funktionieren nativ.

Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung. Qwen 3.5 9B ist ideal für Entwickler, die ein leistungsfähiges lokales Modell auf beschränkter Hardware betreiben möchten — eine RTX 3060 12GB oder ein Mac mit 16 GB Unified Memory reicht bei Q4-Quantisierung bereits aus. Die Ollama-Integration ist nahtlos mit nativem Tool Calling und Thinking-Support.

Fähigkeiten-Matrix

Was kann Qwen 3.5 9B — und was nicht?

🇩🇪 Deutsch-Chat

4.0

🇬🇧 Englisch-Chat

4.5

🗣️ Multilingual

4.5

💻 Code-Generierung

4.0

🌍 Übersetzung

4.0

📋 Zusammenfassung

4.0

📄 RAG / Dokumente

4.0

🔧 Tool-Use / Function Calling

4.0

🌐 Browser-Automatisierung

3.0

👁️ Bildverständnis

3.5

🧮 Mathematik / Logik

4.0

✍️ Kreatives Schreiben

3.5

Unterstützte Programmiersprachen: Python, JavaScript, TypeScript, Java, C++, Go, PHP, SQL

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
?	? GB	? GB	✗ Nein	Q4_K_M	—
?	? GB	? GB	✗ Nein	Q4_K_M	—
?	? GB	? GB	✗ Nein	Q4_K_M	—

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

Weitere Qwen 3.5-Modelle

Qwen 3.5 27B

Multimodales Dense-Modell mit 262K Kontext und nativer Vision

0.8B 2B 4B 9B 27B 35B MoE 122B MoE 397B MoE

Details ansehen

Qwen 3.5 35B MoE

Effizientes Mixture-of-Experts-Modell mit nur 3B aktiven Parametern

35B-A3B MoE

Details ansehen

War diese Übersicht hilfreich?