Qwen 3.6: Alibabas neues Open-Source-Modell schlägt Modelle, die 14-mal größer sind — alle Fakten

Ein 27-Milliarden-Parameter-Modell schlägt seinen eigenen Vorgänger mit 397 Milliarden Parametern beim Coding. Das klingt nach einem Fehler in der Benchmark-Tabelle — ist es aber nicht. Alibabas Qwen-Team hat im April 2026 mit der Qwen-3.6-Familie ein Statement gesetzt, das die Branche aufhorchen lässt: Nicht mehr Parameter zählen, sondern wie intelligent die Architektur sie nutzt.

In diesem Artikel analysieren wir alle vier Qwen-3.6-Modelle im Detail: Benchmarks, die neuartige Gated-DeltaNet-Architektur, Hardware-Anforderungen, Praxis-Tipps für die lokale Installation — und einen ehrlichen Vergleich mit Claude Opus 4.6, Gemma 4 und DeepSeek V4.

1. Warum Qwen 3.6 besonders ist

Die KI-Branche hat sich an eine einfache Formel gewöhnt: Mehr Parameter = bessere Leistung. Alibabas Qwen-Team beweist mit Qwen 3.6, dass diese Gleichung nicht mehr stimmt. Das Qwen3.6-27B Dense erreicht auf dem SWE-bench Verified — dem Industriestandard für agentic Coding — eine Score von 77,2 Prozent. Zum Vergleich: Das eigene Vorgängermodell Qwen3.5-397B-A27B mit 397 Milliarden Parametern kam auf 76,2 Prozent.

Ein Modell mit 27 Milliarden Parametern übertrifft also eines mit 397 Milliarden — beim Coding, der wohl anspruchsvollsten Benchmark-Disziplin. Das ist kein marginaler Vorsprung, sondern ein fundamentaler Effizienzgewinn, der durch eine komplett neue Architektur ermöglicht wird.

Aber das ist nur die halbe Geschichte. Parallel dazu hat das Qwen-Team mit dem Qwen3.6-35B-A3B ein MoE-Modell veröffentlicht, das 35 Milliarden Parameter hat, aber nur 3 Milliarden gleichzeitig aktiviert. Das aggressivste Mixture-of-Experts-Verhältnis am Markt — und trotzdem erreicht es Benchmark-Werte, die noch vor wenigen Monaten 10x größeren Modellen vorbehalten waren.

2. Die 4 Modelle im Überblick

Die Qwen-3.6-Familie besteht aus vier Modellen, die über drei Wochen hinweg veröffentlicht wurden:

Modell	Typ	Parameter	Aktiv	Kontext	Lizenz	Release
Qwen3.6 Plus	API-only	unbekannt	—	—	Proprietär	2. April 2026
Qwen3.6-35B-A3B	MoE	35B	3B	262K (1M erweiterbar)	Apache 2.0	16. April 2026
Qwen3.6-Max-Preview	API-only	unbekannt	—	—	Proprietär	20. April 2026
Qwen3.6-27B Dense	Dense	27B	27B	262K	Apache 2.0	22. April 2026

Besonders bemerkenswert: Beide Open-Weight-Modelle stehen unter Apache 2.0 — der freizügigsten Open-Source-Lizenz. Kommerzielle Nutzung, Modifikation, Distribution — alles erlaubt, ohne Einschränkungen. Das unterscheidet Qwen 3.6 deutlich von Metas Llama-Modellen mit ihren Nutzungsbeschränkungen ab 700 Millionen monatlichen Nutzern.

3. Benchmarks im Detail

Zahlen sagen mehr als Marketingversprechen. Hier die wichtigsten Benchmarks der beiden Open-Weight-Modelle:

Qwen3.6-35B-A3B (MoE — nur 3B aktiv)

Benchmark	Kategorie	Score
SWE-bench Verified	Agentic Coding	73,4%
AIME 2026	Mathematik	92,7%
GPQA Diamond	Wissenschaft	86,0%

Zur Einordnung: Ein Modell, das nur 3 Milliarden Parameter gleichzeitig aktiviert, erreicht auf SWE-bench Verified 73,4 Prozent. Googles Gemma 4 27B kommt bei vergleichbaren Benchmarks nicht an diese Werte heran — und Gemma 4 aktiviert alle 27 Milliarden Parameter gleichzeitig.

Qwen3.6-27B Dense — der Coding-König

Noch beeindruckender sind die Zahlen des Dense-Modells:

Benchmark	Qwen3.6-27B	Qwen3.5-397B-A27B	Differenz
SWE-bench Verified	77,2%	76,2%	+1,0 Pp.

Das muss man sich auf der Zunge zergehen lassen: 27 Milliarden Parameter schlagen 397 Milliarden Parameter — also ein Modell, das 14,7-mal kleiner ist. Der Grund liegt in der komplett neuen Architektur, die wir im nächsten Abschnitt erklären.

Qwen3.6-Max-Preview — die Spitze der Pyramide

Das proprietäre Flaggschiff-Modell Qwen3.6-Max-Preview erreicht aktuell Platz 1 auf sechs Coding-Benchmarks gleichzeitig: SWE-bench Pro, Terminal-Bench, SkillsBench und drei weitere. Es ist damit das stärkste Coding-Modell, das bisher öffentlich gemessen wurde — wenn auch nur über die API verfügbar.

4. Die Architektur-Innovation: Gated DeltaNet

Was macht Qwen 3.6 so viel effizienter als seine Vorgänger? Die Antwort liegt in einer fundamentalen Änderung der Attention-Architektur.

Das Problem der klassischen Attention

Standard-Transformer verwenden Softmax Attention, die quadratisch mit der Sequenzlänge skaliert. Verdoppelt man die Kontextlänge, vervierfacht sich der Rechenaufwand. Das ist der Grund, warum lange Kontexte so teuer sind — und warum Modelle mit 1 Million Token Kontext bisher enorme GPU-Cluster brauchten.

Gated DeltaNet: Linear Attention mit Gedächtnis

Qwen 3.6 führt Gated DeltaNet ein — eine Form der Linear Attention, die nur linear mit der Sequenzlänge skaliert. Statt für jedes Token die Beziehung zu allen vorherigen Token neu zu berechnen, pflegt Gated DeltaNet einen komprimierten Zustandsspeicher, der inkrementell aktualisiert wird.

Der Clou: Das Modell verwendet ein hybrides Layout. Jeder Block besteht aus:

Block-Layout (pro 4 Layer):
├── Layer 1: Gated DeltaNet (Linear Attention) + MoE
├── Layer 2: Gated DeltaNet (Linear Attention) + MoE
├── Layer 3: Gated DeltaNet (Linear Attention) + MoE
└── Layer 4: Standard Attention (Softmax) + MoE

Drei von vier Layern nutzen die effiziente Linear Attention, während jeder vierte Layer klassische Softmax Attention verwendet. Diese Kombination erreicht laut Alibabas Messungen 95-98 Prozent der Qualität reiner Softmax-Modelle — bei deutlich geringerem Rechenaufwand, insbesondere bei langen Kontexten.

MoE: 256 Experten, aber nur 8+1 aktiv

Beim MoE-Modell (35B-A3B) kommen pro Layer 256 Experten-Netzwerke zum Einsatz. Für jedes Token werden nur 8 spezialisierte Experten plus 1 geteilter Experte aktiviert. Das bedeutet: Das Modell hat das Wissen von 35 Milliarden Parametern, verbraucht aber nur die Rechenleistung von 3 Milliarden.

Dieses Verhältnis von ~12:1 (total zu aktiv) ist das aggressivste am Markt. Zum Vergleich: DeepSeek V3 hatte ein Verhältnis von ~6:1 (671B total, 37B aktiv). Qwen 3.6 spart also doppelt so aggressiv — ohne nennenswerte Qualitätsverluste.

Multi-Token Prediction

Das Dense-Modell (27B) unterstützt zusätzlich Multi-Token Prediction — eine Technik, bei der das Modell nicht nur das nächste Token vorhersagt, sondern mehrere gleichzeitig. In Kombination mit Speculative Decoding kann das die Inferenz-Geschwindigkeit um den Faktor 1,5-2x beschleunigen, ohne die Qualität zu beeinträchtigen.

Training: Die 4-Stufen-Pipeline

Alibaba beschreibt eine vierstufige Trainingspipeline für Qwen 3.6:

Pre-Training: Massive Datenmengen, um Weltwissen aufzubauen
Long-Context Extension: Schrittweise Erweiterung des Kontextfensters auf 262K (nativ)
Supervised Fine-Tuning: Qualitätsdaten für Instruktionsbefolgung und Coding
Reinforcement Learning: RLHF und weitere Alignment-Techniken

Besonders das Extended-Context-Training auf bis zu 1 Million Token macht das MoE-Modell interessant für Anwendungen wie Codebase-Analyse oder lange Dokumentenverarbeitung.

Always-On Chain-of-Thought

Qwen3.6 Plus (die proprietäre API-Version) nutzt Always-On Chain-of-Thought — das Modell denkt bei jeder Anfrage zunächst intern nach, bevor es antwortet. Bei den Open-Weight-Modellen ist das Chain-of-Thought per Toggle umschaltbar: Nutzer können selbst entscheiden, ob das Modell „laut denken" soll oder direkt antworten. Das ist ein Vorteil gegenüber Modellen, die immer im Thinking-Modus arbeiten und dadurch mehr Token verbrauchen.

5. Hardware-Anforderungen

Eine der wichtigsten Fragen für die lokale Nutzung: Welche GPU brauche ich? Hier die VRAM-Anforderungen bei verschiedenen Quantisierungsstufen:

Modell	FP16	Q8	Q4	Empfohlene GPU
Qwen3.6-35B-A3B	~70 GB	~37 GB	~21 GB	RTX 4090 / RTX 3090 (24 GB)
Qwen3.6-27B Dense	~54 GB	~28 GB	~16,5 GB	RTX 3090 / RTX 4080 Super (16 GB+)

Die gute Nachricht: Beide Open-Weight-Modelle laufen in Q4-Quantisierung auf einer einzelnen Consumer-GPU. Das 27B Dense in Q4 braucht nur etwa 16,5 GB VRAM — das schafft sogar eine RTX 3090 mit Reserven. Das MoE-Modell (35B-A3B) belegt in Q4 rund 21 GB und passt damit knapp auf eine RTX 3090 oder komfortabel auf eine RTX 4090.

Für eine ausführliche Übersicht zu empfohlenen GPUs für lokale KI-Modelle, schau dir unsere Hardware-Empfehlungen an.

6. Qwen 3.6 lokal installieren

Der einfachste Weg, Qwen 3.6 lokal auszuprobieren, führt über Ollama. In drei Schritten bist du startklar:

Schritt 1: Ollama installieren

# Linux / macOS curl -fsSL https://ollama.com/install.sh | sh

# Windows: Download von https://ollama.com/download

Schritt 2: Modell herunterladen und starten

# MoE-Modell (35B total, 3B aktiv) — empfohlen für die meisten Anwendungen ollama run qwen3.6

# Dense-Modell (27B) — empfohlen für Coding ollama run qwen3.6:27b

Schritt 3: Loslegen

Sobald das Modell geladen ist, kannst du direkt im Terminal chatten. Für eine Web-Oberfläche empfiehlt sich Open WebUI (GitHub), das sich mit Ollama verbindet und eine ChatGPT-ähnliche Oberfläche bietet.

Wann 35B-A3B, wann 27B Dense?

Einsatz	Empfehlung	Warum
Coding / Agentic Tasks	27B Dense	SWE-bench 77,2% vs. 73,4% — deutlich besser bei Code
Allgemeine Aufgaben / Chat	35B-A3B	Schneller wegen nur 3B aktiver Parameter
Lange Dokumente (>100K Token)	35B-A3B	262K nativ, bis 1M erweiterbar
Multimodal (Bild + Video)	35B-A3B	Nativ multimodal — Text, Bild und Video
Wenig VRAM (16 GB)	27B Dense (Q4)	~16,5 GB VRAM — passt auf RTX 4060 Ti 16GB
Speculative Decoding	27B Dense	Multi-Token Prediction eingebaut

7. Vergleich: Qwen 3.6 vs. Qwen 3.5 — was hat sich verbessert?

Der Sprung von Qwen 3.5 zu Qwen 3.6 ist kein inkrementelles Update, sondern ein Architekturwechsel:

Merkmal	Qwen 3.5	Qwen 3.6
Architektur	Standard Transformer	Hybrid: Gated DeltaNet + Attention
Größtes Open-Weight	397B-A27B (MoE)	35B-A3B (MoE) + 27B (Dense)
SWE-bench Verified (bestes Open)	76,2% (397B)	77,2% (27B!)
Multimodal	Text + Bild	Text + Bild + Video
Consumer-GPU-tauglich	Nur kleine Varianten	Stärkstes Modell auf 1x RTX 3090
Multi-Token Prediction	Nein	Ja (Dense-Modell)
Chain-of-Thought	Toggle (Thinking Mode)	Always-On (Plus) / Toggle (Open)

Der wichtigste Fortschritt ist die Effizienz: Qwen 3.5 brauchte 397 Milliarden Parameter für seine besten Coding-Ergebnisse. Qwen 3.6 übertrifft diese Werte mit nur 27 Milliarden Parametern. Das senkt die Hardware-Kosten für Inference dramatisch — ein einzelner Server mit einer GPU reicht jetzt aus, wo vorher ein Multi-GPU-Cluster nötig war.

8. Vergleich: Qwen 3.6 vs. Gemma 4 vs. Claude vs. DeepSeek

Wo steht Qwen 3.6 im Vergleich zur aktuellen Konkurrenz? Hier der ehrliche Vergleich:

Benchmark	Qwen3.6-35B-A3B	Qwen3.6-27B	Gemma 4 27B	Claude Opus 4.6	DeepSeek V4
SWE-bench Verified	73,4%	77,2%	—	80,8%	—
AIME 2026	92,7%	—	89,2%	—	99,4%
GPQA Diamond	86,0%	—	—	—	—
Lizenz	Apache 2.0	Apache 2.0	Gemma License	Proprietär	MIT
Lokal nutzbar	✔ (24 GB VRAM)	✔ (16 GB VRAM)	✔ (16 GB VRAM)	✘	✘ (671B)

Einordnung

Coding: Claude Opus 4.6 bleibt mit 80,8 Prozent auf SWE-bench Verified der King of Code — aber es ist ein proprietäres Modell, das nur über die API nutzbar ist. Qwen3.6-27B Dense mit 77,2 Prozent ist das beste Coding-Modell, das du lokal auf einer einzelnen GPU betreiben kannst.

Mathematik: DeepSeek V4 dominiert mit 99,4 Prozent auf AIME 2026 — allerdings ist DeepSeek V4 mit 671 Milliarden Parametern kein Modell für Consumer-Hardware. Qwen 3.6 erreicht starke 92,7 Prozent mit einem Bruchteil der Parameter.

Allgemein: Gemma 4 27B von Google ist der nächste Konkurrent in der gleichen Gewichtsklasse. Im AIME-Benchmark liegt Qwen 3.6 mit 92,7 Prozent versus 89,2 Prozent deutlich vorne. Bei multimodalen Aufgaben und langen Kontexten hat Qwen 3.6 mit 262K (erweiterbar auf 1M) ebenfalls die Nase vorn.

9. API-Preise: 17-mal günstiger als Claude

Für Entwickler, die Qwen 3.6 über die API nutzen wollen (statt lokal), gibt es einen massiven Preisvorteil:

Modell	Input (pro 1M Token)	Output (pro 1M Token)	Faktor vs. Claude
Qwen3.6 Plus (API)	$0,29	—	17x günstiger
Claude Opus 4.6	$5,00	$25,00	Referenz
Lokale Nutzung (Ollama)	$0,00 — nur Stromkosten (~0,03 EUR/Stunde bei RTX 3090)

Bei der API-Nutzung kostet Qwen 3.6 Plus nur ein Siebzehntel von Claude Opus 4.6. Für Anwendungen mit hohem Volumen — etwa Batch-Verarbeitung von Dokumenten oder automatisierte Code-Reviews — kann das den Unterschied zwischen wirtschaftlich und unwirtschaftlich ausmachen.

Noch besser: Wer das Modell lokal über Ollama betreibt, zahlt gar keine Token-Kosten. Bei einer RTX 3090, die rund 350 Watt unter Last verbraucht, liegen die reinen Stromkosten bei etwa 0,03 EUR pro Stunde (bei 0,30 EUR/kWh). Das ist unschlagbar.

10. DSGVO und Lizenz

Für europäische Unternehmen sind zwei Aspekte besonders relevant:

Apache 2.0 — maximale Freiheit

Beide Open-Weight-Modelle stehen unter Apache 2.0. Das bedeutet:

Kommerzielle Nutzung: Ja, ohne Einschränkungen
Modifikation und Finetuning: Ja
Distribution: Ja, auch in kommerziellen Produkten
Keine Nutzer-Obergrenze (anders als bei Llama)

DSGVO-Konformität durch lokale Nutzung

Wer Qwen 3.6 lokal betreibt — auf eigenen Servern oder dem eigenen PC — hat keine DSGVO-Probleme:

Keine Datenübertragung an Drittanbieter
Keine Auftragsverarbeitung nötig
Volle Kontrolle über Eingabe- und Ausgabedaten
Server-Standort = dein Standort (EU)

Das ist ein massiver Vorteil gegenüber Cloud-APIs wie ChatGPT, Claude oder Gemini, bei denen immer ein Auftragsverarbeitungsvertrag nötig ist und Daten an US-Server übertragen werden. Mehr dazu in unserem Überblick über lokale KI-Modelle.

11. Für wen lohnt sich Qwen 3.6?

Nicht jedes Modell passt für jeden Anwendungsfall. Hier eine ehrliche Einschätzung:

Qwen 3.6 ist ideal für:

Entwickler, die einen lokalen Coding-Assistenten suchen, der SWE-bench-Niveau erreicht
Unternehmen, die KI-Modelle unter Apache 2.0 kommerziell einsetzen wollen
DSGVO-sensitive Anwendungen, bei denen keine Daten die eigene Infrastruktur verlassen dürfen
Startups mit begrenztem Budget, die leistungsstarke KI ohne teure API-Kosten brauchen
Forscher, die ein State-of-the-Art-Modell mit neuer Architektur untersuchen wollen
Multimodale Anwendungen mit Text, Bild und Video (35B-A3B)

Qwen 3.6 ist NICHT ideal für:

Absolute Spitzenleistung bei Coding: Claude Opus 4.6 (80,8% SWE-bench) bleibt vorne
Mathematische Forschung: DeepSeek V4 (99,4% AIME) ist bei reiner Mathematik überlegen
Nutzer ohne GPU: Für rein CPU-basierte Inferenz sind kleinere Modelle (7B-8B) besser geeignet
Wer keine chinesischen Modelle einsetzen will: Einige Organisationen haben Compliance-Vorgaben bezüglich der Herkunft von KI-Modellen

12. Fazit

Qwen 3.6 ist kein inkrementelles Update — es ist ein Paradigmenwechsel. Die Kombination aus Gated DeltaNet (Linear Attention), aggressivem MoE (256 Experten, nur 8+1 aktiv) und Multi-Token Prediction zeigt, wohin die Reise bei Open-Source-Modellen geht: Weg von „mehr Parameter = besser" hin zu „intelligentere Architektur = besser".

Die Fakten sprechen für sich:

27B Dense schlägt 397B MoE beim Coding (77,2% vs. 76,2% SWE-bench)
35B-A3B MoE erreicht 92,7% auf AIME 2026 — mit nur 3B aktiven Parametern
Beide Modelle laufen auf einer einzelnen RTX 3090 (ab 16,5 GB VRAM in Q4)
Apache 2.0 — keine Nutzungsbeschränkungen, voll kommerziell
17x günstiger als Claude bei der API-Nutzung

Für Entwickler und Unternehmen, die KI lokal und DSGVO-konform betreiben wollen, gibt es Stand April 2026 kein besseres Preis-Leistungs-Verhältnis. Wer eine RTX 3090 oder besser hat, sollte Qwen 3.6 ausprobieren — die Installation über ollama run qwen3.6 dauert keine fünf Minuten.

Weiterführende Artikel auf KI-Katalog.de:
→ Alle lokalen KI-Modelle im Überblick
→ GPU-Empfehlungen für lokale KI
→ RTX 3090 Kaufberatung für lokale KI
→ Gemma 4 lokal installieren — Anleitung

Qwen 3.6: Alibabas neues Open-Source-Modell schlägt Modelle, die 14-mal größer sind — alle Fakten

1. Warum Qwen 3.6 besonders ist

2. Die 4 Modelle im Überblick

3. Benchmarks im Detail

Qwen3.6-35B-A3B (MoE — nur 3B aktiv)

Qwen3.6-27B Dense — der Coding-König

Qwen3.6-Max-Preview — die Spitze der Pyramide

4. Die Architektur-Innovation: Gated DeltaNet

Das Problem der klassischen Attention

Gated DeltaNet: Linear Attention mit Gedächtnis

MoE: 256 Experten, aber nur 8+1 aktiv

Multi-Token Prediction

Training: Die 4-Stufen-Pipeline

Always-On Chain-of-Thought

5. Hardware-Anforderungen

6. Qwen 3.6 lokal installieren

Schritt 1: Ollama installieren

Schritt 2: Modell herunterladen und starten

Schritt 3: Loslegen

Wann 35B-A3B, wann 27B Dense?

7. Vergleich: Qwen 3.6 vs. Qwen 3.5 — was hat sich verbessert?

8. Vergleich: Qwen 3.6 vs. Gemma 4 vs. Claude vs. DeepSeek

Einordnung

9. API-Preise: 17-mal günstiger als Claude

10. DSGVO und Lizenz

Apache 2.0 — maximale Freiheit

DSGVO-Konformität durch lokale Nutzung

11. Für wen lohnt sich Qwen 3.6?

Qwen 3.6 ist ideal für:

Qwen 3.6 ist NICHT ideal für:

12. Fazit

Quellen

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

1. Warum Qwen 3.6 besonders ist

2. Die 4 Modelle im Überblick

3. Benchmarks im Detail

Qwen3.6-35B-A3B (MoE — nur 3B aktiv)

Qwen3.6-27B Dense — der Coding-König

Qwen3.6-Max-Preview — die Spitze der Pyramide

4. Die Architektur-Innovation: Gated DeltaNet

Das Problem der klassischen Attention

Gated DeltaNet: Linear Attention mit Gedächtnis

MoE: 256 Experten, aber nur 8+1 aktiv

Multi-Token Prediction

Training: Die 4-Stufen-Pipeline

Always-On Chain-of-Thought

5. Hardware-Anforderungen

6. Qwen 3.6 lokal installieren

Schritt 1: Ollama installieren

Schritt 2: Modell herunterladen und starten

Schritt 3: Loslegen

Wann 35B-A3B, wann 27B Dense?

7. Vergleich: Qwen 3.6 vs. Qwen 3.5 — was hat sich verbessert?

8. Vergleich: Qwen 3.6 vs. Gemma 4 vs. Claude vs. DeepSeek

Einordnung

9. API-Preise: 17-mal günstiger als Claude

10. DSGVO und Lizenz

Apache 2.0 — maximale Freiheit

DSGVO-Konformität durch lokale Nutzung

11. Für wen lohnt sich Qwen 3.6?

Qwen 3.6 ist ideal für:

Qwen 3.6 ist NICHT ideal für:

12. Fazit

Quellen

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

KI-Tool der Woche