Ein 27-Milliarden-Parameter-Modell schlägt seinen eigenen Vorgänger mit 397 Milliarden Parametern beim Coding. Das klingt nach einem Fehler in der Benchmark-Tabelle — ist es aber nicht. Alibabas Qwen-Team hat im April 2026 mit der Qwen-3.6-Familie ein Statement gesetzt, das die Branche aufhorchen lässt: Nicht mehr Parameter zählen, sondern wie intelligent die Architektur sie nutzt.
In diesem Artikel analysieren wir alle vier Qwen-3.6-Modelle im Detail: Benchmarks, die neuartige Gated-DeltaNet-Architektur, Hardware-Anforderungen, Praxis-Tipps für die lokale Installation — und einen ehrlichen Vergleich mit Claude Opus 4.6, Gemma 4 und DeepSeek V4.
1. Warum Qwen 3.6 besonders ist
Die KI-Branche hat sich an eine einfache Formel gewöhnt: Mehr Parameter = bessere Leistung. Alibabas Qwen-Team beweist mit Qwen 3.6, dass diese Gleichung nicht mehr stimmt. Das Qwen3.6-27B Dense erreicht auf dem SWE-bench Verified — dem Industriestandard für agentic Coding — eine Score von 77,2 Prozent. Zum Vergleich: Das eigene Vorgängermodell Qwen3.5-397B-A27B mit 397 Milliarden Parametern kam auf 76,2 Prozent.
Ein Modell mit 27 Milliarden Parametern übertrifft also eines mit 397 Milliarden — beim Coding, der wohl anspruchsvollsten Benchmark-Disziplin. Das ist kein marginaler Vorsprung, sondern ein fundamentaler Effizienzgewinn, der durch eine komplett neue Architektur ermöglicht wird.
Aber das ist nur die halbe Geschichte. Parallel dazu hat das Qwen-Team mit dem Qwen3.6-35B-A3B ein MoE-Modell veröffentlicht, das 35 Milliarden Parameter hat, aber nur 3 Milliarden gleichzeitig aktiviert. Das aggressivste Mixture-of-Experts-Verhältnis am Markt — und trotzdem erreicht es Benchmark-Werte, die noch vor wenigen Monaten 10x größeren Modellen vorbehalten waren.
2. Die 4 Modelle im Überblick
Die Qwen-3.6-Familie besteht aus vier Modellen, die über drei Wochen hinweg veröffentlicht wurden:
| Modell | Typ | Parameter | Aktiv | Kontext | Lizenz | Release |
|---|---|---|---|---|---|---|
| Qwen3.6 Plus | API-only | unbekannt | — | — | Proprietär | 2. April 2026 |
| Qwen3.6-35B-A3B | MoE | 35B | 3B | 262K (1M erweiterbar) | Apache 2.0 | 16. April 2026 |
| Qwen3.6-Max-Preview | API-only | unbekannt | — | — | Proprietär | 20. April 2026 |
| Qwen3.6-27B Dense | Dense | 27B | 27B | 262K | Apache 2.0 | 22. April 2026 |
Besonders bemerkenswert: Beide Open-Weight-Modelle stehen unter Apache 2.0 — der freizügigsten Open-Source-Lizenz. Kommerzielle Nutzung, Modifikation, Distribution — alles erlaubt, ohne Einschränkungen. Das unterscheidet Qwen 3.6 deutlich von Metas Llama-Modellen mit ihren Nutzungsbeschränkungen ab 700 Millionen monatlichen Nutzern.
3. Benchmarks im Detail
Zahlen sagen mehr als Marketingversprechen. Hier die wichtigsten Benchmarks der beiden Open-Weight-Modelle:
Qwen3.6-35B-A3B (MoE — nur 3B aktiv)
| Benchmark | Kategorie | Score |
|---|---|---|
| SWE-bench Verified | Agentic Coding | 73,4% |
| AIME 2026 | Mathematik | 92,7% |
| GPQA Diamond | Wissenschaft | 86,0% |
Zur Einordnung: Ein Modell, das nur 3 Milliarden Parameter gleichzeitig aktiviert, erreicht auf SWE-bench Verified 73,4 Prozent. Googles Gemma 4 27B kommt bei vergleichbaren Benchmarks nicht an diese Werte heran — und Gemma 4 aktiviert alle 27 Milliarden Parameter gleichzeitig.
Qwen3.6-27B Dense — der Coding-König
Noch beeindruckender sind die Zahlen des Dense-Modells:
| Benchmark | Qwen3.6-27B | Qwen3.5-397B-A27B | Differenz |
|---|---|---|---|
| SWE-bench Verified | 77,2% | 76,2% | +1,0 Pp. |
Das muss man sich auf der Zunge zergehen lassen: 27 Milliarden Parameter schlagen 397 Milliarden Parameter — also ein Modell, das 14,7-mal kleiner ist. Der Grund liegt in der komplett neuen Architektur, die wir im nächsten Abschnitt erklären.
Qwen3.6-Max-Preview — die Spitze der Pyramide
Das proprietäre Flaggschiff-Modell Qwen3.6-Max-Preview erreicht aktuell Platz 1 auf sechs Coding-Benchmarks gleichzeitig: SWE-bench Pro, Terminal-Bench, SkillsBench und drei weitere. Es ist damit das stärkste Coding-Modell, das bisher öffentlich gemessen wurde — wenn auch nur über die API verfügbar.
4. Die Architektur-Innovation: Gated DeltaNet
Was macht Qwen 3.6 so viel effizienter als seine Vorgänger? Die Antwort liegt in einer fundamentalen Änderung der Attention-Architektur.
Das Problem der klassischen Attention
Standard-Transformer verwenden Softmax Attention, die quadratisch mit der Sequenzlänge skaliert. Verdoppelt man die Kontextlänge, vervierfacht sich der Rechenaufwand. Das ist der Grund, warum lange Kontexte so teuer sind — und warum Modelle mit 1 Million Token Kontext bisher enorme GPU-Cluster brauchten.
Gated DeltaNet: Linear Attention mit Gedächtnis
Qwen 3.6 führt Gated DeltaNet ein — eine Form der Linear Attention, die nur linear mit der Sequenzlänge skaliert. Statt für jedes Token die Beziehung zu allen vorherigen Token neu zu berechnen, pflegt Gated DeltaNet einen komprimierten Zustandsspeicher, der inkrementell aktualisiert wird.
Der Clou: Das Modell verwendet ein hybrides Layout. Jeder Block besteht aus:
Block-Layout (pro 4 Layer): ├── Layer 1: Gated DeltaNet (Linear Attention) + MoE ├── Layer 2: Gated DeltaNet (Linear Attention) + MoE ├── Layer 3: Gated DeltaNet (Linear Attention) + MoE └── Layer 4: Standard Attention (Softmax) + MoE
Drei von vier Layern nutzen die effiziente Linear Attention, während jeder vierte Layer klassische Softmax Attention verwendet. Diese Kombination erreicht laut Alibabas Messungen 95-98 Prozent der Qualität reiner Softmax-Modelle — bei deutlich geringerem Rechenaufwand, insbesondere bei langen Kontexten.
MoE: 256 Experten, aber nur 8+1 aktiv
Beim MoE-Modell (35B-A3B) kommen pro Layer 256 Experten-Netzwerke zum Einsatz. Für jedes Token werden nur 8 spezialisierte Experten plus 1 geteilter Experte aktiviert. Das bedeutet: Das Modell hat das Wissen von 35 Milliarden Parametern, verbraucht aber nur die Rechenleistung von 3 Milliarden.
Dieses Verhältnis von ~12:1 (total zu aktiv) ist das aggressivste am Markt. Zum Vergleich: DeepSeek V3 hatte ein Verhältnis von ~6:1 (671B total, 37B aktiv). Qwen 3.6 spart also doppelt so aggressiv — ohne nennenswerte Qualitätsverluste.
Multi-Token Prediction
Das Dense-Modell (27B) unterstützt zusätzlich Multi-Token Prediction — eine Technik, bei der das Modell nicht nur das nächste Token vorhersagt, sondern mehrere gleichzeitig. In Kombination mit Speculative Decoding kann das die Inferenz-Geschwindigkeit um den Faktor 1,5-2x beschleunigen, ohne die Qualität zu beeinträchtigen.
Training: Die 4-Stufen-Pipeline
Alibaba beschreibt eine vierstufige Trainingspipeline für Qwen 3.6:
- Pre-Training: Massive Datenmengen, um Weltwissen aufzubauen
- Long-Context Extension: Schrittweise Erweiterung des Kontextfensters auf 262K (nativ)
- Supervised Fine-Tuning: Qualitätsdaten für Instruktionsbefolgung und Coding
- Reinforcement Learning: RLHF und weitere Alignment-Techniken
Besonders das Extended-Context-Training auf bis zu 1 Million Token macht das MoE-Modell interessant für Anwendungen wie Codebase-Analyse oder lange Dokumentenverarbeitung.
Always-On Chain-of-Thought
Qwen3.6 Plus (die proprietäre API-Version) nutzt Always-On Chain-of-Thought — das Modell denkt bei jeder Anfrage zunächst intern nach, bevor es antwortet. Bei den Open-Weight-Modellen ist das Chain-of-Thought per Toggle umschaltbar: Nutzer können selbst entscheiden, ob das Modell „laut denken" soll oder direkt antworten. Das ist ein Vorteil gegenüber Modellen, die immer im Thinking-Modus arbeiten und dadurch mehr Token verbrauchen.
5. Hardware-Anforderungen
Eine der wichtigsten Fragen für die lokale Nutzung: Welche GPU brauche ich? Hier die VRAM-Anforderungen bei verschiedenen Quantisierungsstufen:
| Modell | FP16 | Q8 | Q4 | Empfohlene GPU |
|---|---|---|---|---|
| Qwen3.6-35B-A3B | ~70 GB | ~37 GB | ~21 GB | RTX 4090 / RTX 3090 (24 GB) |
| Qwen3.6-27B Dense | ~54 GB | ~28 GB | ~16,5 GB | RTX 3090 / RTX 4080 Super (16 GB+) |
Die gute Nachricht: Beide Open-Weight-Modelle laufen in Q4-Quantisierung auf einer einzelnen Consumer-GPU. Das 27B Dense in Q4 braucht nur etwa 16,5 GB VRAM — das schafft sogar eine RTX 3090 mit Reserven. Das MoE-Modell (35B-A3B) belegt in Q4 rund 21 GB und passt damit knapp auf eine RTX 3090 oder komfortabel auf eine RTX 4090.
Für eine ausführliche Übersicht zu empfohlenen GPUs für lokale KI-Modelle, schau dir unsere Hardware-Empfehlungen an.
6. Qwen 3.6 lokal installieren
Der einfachste Weg, Qwen 3.6 lokal auszuprobieren, führt über Ollama. In drei Schritten bist du startklar:
Schritt 1: Ollama installieren
# Linux / macOS curl -fsSL https://ollama.com/install.sh | sh# Windows: Download von https://ollama.com/download
Schritt 2: Modell herunterladen und starten
# MoE-Modell (35B total, 3B aktiv) — empfohlen für die meisten Anwendungen ollama run qwen3.6# Dense-Modell (27B) — empfohlen für Coding ollama run qwen3.6:27b
Schritt 3: Loslegen
Sobald das Modell geladen ist, kannst du direkt im Terminal chatten. Für eine Web-Oberfläche empfiehlt sich Open WebUI (GitHub), das sich mit Ollama verbindet und eine ChatGPT-ähnliche Oberfläche bietet.
Wann 35B-A3B, wann 27B Dense?
| Einsatz | Empfehlung | Warum |
|---|---|---|
| Coding / Agentic Tasks | 27B Dense | SWE-bench 77,2% vs. 73,4% — deutlich besser bei Code |
| Allgemeine Aufgaben / Chat | 35B-A3B | Schneller wegen nur 3B aktiver Parameter |
| Lange Dokumente (>100K Token) | 35B-A3B | 262K nativ, bis 1M erweiterbar |
| Multimodal (Bild + Video) | 35B-A3B | Nativ multimodal — Text, Bild und Video |
| Wenig VRAM (16 GB) | 27B Dense (Q4) | ~16,5 GB VRAM — passt auf RTX 4060 Ti 16GB |
| Speculative Decoding | 27B Dense | Multi-Token Prediction eingebaut |
7. Vergleich: Qwen 3.6 vs. Qwen 3.5 — was hat sich verbessert?
Der Sprung von Qwen 3.5 zu Qwen 3.6 ist kein inkrementelles Update, sondern ein Architekturwechsel:
| Merkmal | Qwen 3.5 | Qwen 3.6 |
|---|---|---|
| Architektur | Standard Transformer | Hybrid: Gated DeltaNet + Attention |
| Größtes Open-Weight | 397B-A27B (MoE) | 35B-A3B (MoE) + 27B (Dense) |
| SWE-bench Verified (bestes Open) | 76,2% (397B) | 77,2% (27B!) |
| Multimodal | Text + Bild | Text + Bild + Video |
| Consumer-GPU-tauglich | Nur kleine Varianten | Stärkstes Modell auf 1x RTX 3090 |
| Multi-Token Prediction | Nein | Ja (Dense-Modell) |
| Chain-of-Thought | Toggle (Thinking Mode) | Always-On (Plus) / Toggle (Open) |
Der wichtigste Fortschritt ist die Effizienz: Qwen 3.5 brauchte 397 Milliarden Parameter für seine besten Coding-Ergebnisse. Qwen 3.6 übertrifft diese Werte mit nur 27 Milliarden Parametern. Das senkt die Hardware-Kosten für Inference dramatisch — ein einzelner Server mit einer GPU reicht jetzt aus, wo vorher ein Multi-GPU-Cluster nötig war.
8. Vergleich: Qwen 3.6 vs. Gemma 4 vs. Claude vs. DeepSeek
Wo steht Qwen 3.6 im Vergleich zur aktuellen Konkurrenz? Hier der ehrliche Vergleich:
| Benchmark | Qwen3.6-35B-A3B | Qwen3.6-27B | Gemma 4 27B | Claude Opus 4.6 | DeepSeek V4 |
|---|---|---|---|---|---|
| SWE-bench Verified | 73,4% | 77,2% | — | 80,8% | — |
| AIME 2026 | 92,7% | — | 89,2% | — | 99,4% |
| GPQA Diamond | 86,0% | — | — | — | — |
| Lizenz | Apache 2.0 | Apache 2.0 | Gemma License | Proprietär | MIT |
| Lokal nutzbar | ✔ (24 GB VRAM) | ✔ (16 GB VRAM) | ✔ (16 GB VRAM) | ✘ | ✘ (671B) |
Einordnung
Coding: Claude Opus 4.6 bleibt mit 80,8 Prozent auf SWE-bench Verified der King of Code — aber es ist ein proprietäres Modell, das nur über die API nutzbar ist. Qwen3.6-27B Dense mit 77,2 Prozent ist das beste Coding-Modell, das du lokal auf einer einzelnen GPU betreiben kannst.
Mathematik: DeepSeek V4 dominiert mit 99,4 Prozent auf AIME 2026 — allerdings ist DeepSeek V4 mit 671 Milliarden Parametern kein Modell für Consumer-Hardware. Qwen 3.6 erreicht starke 92,7 Prozent mit einem Bruchteil der Parameter.
Allgemein: Gemma 4 27B von Google ist der nächste Konkurrent in der gleichen Gewichtsklasse. Im AIME-Benchmark liegt Qwen 3.6 mit 92,7 Prozent versus 89,2 Prozent deutlich vorne. Bei multimodalen Aufgaben und langen Kontexten hat Qwen 3.6 mit 262K (erweiterbar auf 1M) ebenfalls die Nase vorn.
9. API-Preise: 17-mal günstiger als Claude
Für Entwickler, die Qwen 3.6 über die API nutzen wollen (statt lokal), gibt es einen massiven Preisvorteil:
| Modell | Input (pro 1M Token) | Output (pro 1M Token) | Faktor vs. Claude |
|---|---|---|---|
| Qwen3.6 Plus (API) | $0,29 | — | 17x günstiger |
| Claude Opus 4.6 | $5,00 | $25,00 | Referenz |
| Lokale Nutzung (Ollama) | $0,00 — nur Stromkosten (~0,03 EUR/Stunde bei RTX 3090) | ||
Bei der API-Nutzung kostet Qwen 3.6 Plus nur ein Siebzehntel von Claude Opus 4.6. Für Anwendungen mit hohem Volumen — etwa Batch-Verarbeitung von Dokumenten oder automatisierte Code-Reviews — kann das den Unterschied zwischen wirtschaftlich und unwirtschaftlich ausmachen.
Noch besser: Wer das Modell lokal über Ollama betreibt, zahlt gar keine Token-Kosten. Bei einer RTX 3090, die rund 350 Watt unter Last verbraucht, liegen die reinen Stromkosten bei etwa 0,03 EUR pro Stunde (bei 0,30 EUR/kWh). Das ist unschlagbar.
10. DSGVO und Lizenz
Für europäische Unternehmen sind zwei Aspekte besonders relevant:
Apache 2.0 — maximale Freiheit
Beide Open-Weight-Modelle stehen unter Apache 2.0. Das bedeutet:
- Kommerzielle Nutzung: Ja, ohne Einschränkungen
- Modifikation und Finetuning: Ja
- Distribution: Ja, auch in kommerziellen Produkten
- Keine Nutzer-Obergrenze (anders als bei Llama)
DSGVO-Konformität durch lokale Nutzung
Wer Qwen 3.6 lokal betreibt — auf eigenen Servern oder dem eigenen PC — hat keine DSGVO-Probleme:
- Keine Datenübertragung an Drittanbieter
- Keine Auftragsverarbeitung nötig
- Volle Kontrolle über Eingabe- und Ausgabedaten
- Server-Standort = dein Standort (EU)
Das ist ein massiver Vorteil gegenüber Cloud-APIs wie ChatGPT, Claude oder Gemini, bei denen immer ein Auftragsverarbeitungsvertrag nötig ist und Daten an US-Server übertragen werden. Mehr dazu in unserem Überblick über lokale KI-Modelle.
11. Für wen lohnt sich Qwen 3.6?
Nicht jedes Modell passt für jeden Anwendungsfall. Hier eine ehrliche Einschätzung:
Qwen 3.6 ist ideal für:
- Entwickler, die einen lokalen Coding-Assistenten suchen, der SWE-bench-Niveau erreicht
- Unternehmen, die KI-Modelle unter Apache 2.0 kommerziell einsetzen wollen
- DSGVO-sensitive Anwendungen, bei denen keine Daten die eigene Infrastruktur verlassen dürfen
- Startups mit begrenztem Budget, die leistungsstarke KI ohne teure API-Kosten brauchen
- Forscher, die ein State-of-the-Art-Modell mit neuer Architektur untersuchen wollen
- Multimodale Anwendungen mit Text, Bild und Video (35B-A3B)
Qwen 3.6 ist NICHT ideal für:
- Absolute Spitzenleistung bei Coding: Claude Opus 4.6 (80,8% SWE-bench) bleibt vorne
- Mathematische Forschung: DeepSeek V4 (99,4% AIME) ist bei reiner Mathematik überlegen
- Nutzer ohne GPU: Für rein CPU-basierte Inferenz sind kleinere Modelle (7B-8B) besser geeignet
- Wer keine chinesischen Modelle einsetzen will: Einige Organisationen haben Compliance-Vorgaben bezüglich der Herkunft von KI-Modellen
12. Fazit
Qwen 3.6 ist kein inkrementelles Update — es ist ein Paradigmenwechsel. Die Kombination aus Gated DeltaNet (Linear Attention), aggressivem MoE (256 Experten, nur 8+1 aktiv) und Multi-Token Prediction zeigt, wohin die Reise bei Open-Source-Modellen geht: Weg von „mehr Parameter = besser" hin zu „intelligentere Architektur = besser".
Die Fakten sprechen für sich:
- 27B Dense schlägt 397B MoE beim Coding (77,2% vs. 76,2% SWE-bench)
- 35B-A3B MoE erreicht 92,7% auf AIME 2026 — mit nur 3B aktiven Parametern
- Beide Modelle laufen auf einer einzelnen RTX 3090 (ab 16,5 GB VRAM in Q4)
- Apache 2.0 — keine Nutzungsbeschränkungen, voll kommerziell
- 17x günstiger als Claude bei der API-Nutzung
Für Entwickler und Unternehmen, die KI lokal und DSGVO-konform betreiben wollen, gibt es Stand April 2026 kein besseres Preis-Leistungs-Verhältnis. Wer eine RTX 3090 oder besser hat, sollte Qwen 3.6 ausprobieren — die Installation über ollama run qwen3.6 dauert keine fünf Minuten.
Weiterführende Artikel auf KI-Katalog.de:
→ Alle lokalen KI-Modelle im Überblick
→ GPU-Empfehlungen für lokale KI
→ RTX 3090 Kaufberatung für lokale KI
→ Gemma 4 lokal installieren — Anleitung
Quellen
- Qwen Team: Qwen3.6 Release Blog Post (April 2026)
- Hugging Face: Qwen3.6-35B-A3B Model Card
- Hugging Face: Qwen3.6-27B Dense Model Card
- SWE-bench Verified Leaderboard
- Ollama: Qwen 3.6 Library Page
- Yang et al.: Gated Linear Attention Transformers (arXiv)
- DeltaNet: Linear Attention with Delta Rule (arXiv)
- Anthropic: Claude API Pricing
- Qwen Chat: Offizielle Web-Oberfläche
- GitHub: QwenLM/Qwen3 Repository
- AIME 2026 Benchmark Results
- Open WebUI: Web-Oberfläche für Ollama