Qwen 3.6: Alibabas neues Open-Source-Modell schlägt Modelle, die 14-mal größer sind — alle Fakten

Qwen 3.6: Alibabas neues Open-Source-Modell schlägt Modelle, die 14-mal größer sind — alle Fakten

Ein 27-Milliarden-Parameter-Modell schlägt seinen eigenen Vorgänger mit 397 Milliarden Parametern beim Coding. Das klingt nach einem Fehler in der Benchmark-Tabelle — ist es aber nicht. Alibabas Qwen-Team hat im April 2026 mit der Qwen-3.6-Familie ein Statement gesetzt, das die Branche aufhorchen lässt: Nicht mehr Parameter zählen, sondern wie intelligent die Architektur sie nutzt.

In diesem Artikel analysieren wir alle vier Qwen-3.6-Modelle im Detail: Benchmarks, die neuartige Gated-DeltaNet-Architektur, Hardware-Anforderungen, Praxis-Tipps für die lokale Installation — und einen ehrlichen Vergleich mit Claude Opus 4.6, Gemma 4 und DeepSeek V4.

1. Warum Qwen 3.6 besonders ist

Die KI-Branche hat sich an eine einfache Formel gewöhnt: Mehr Parameter = bessere Leistung. Alibabas Qwen-Team beweist mit Qwen 3.6, dass diese Gleichung nicht mehr stimmt. Das Qwen3.6-27B Dense erreicht auf dem SWE-bench Verified — dem Industriestandard für agentic Coding — eine Score von 77,2 Prozent. Zum Vergleich: Das eigene Vorgängermodell Qwen3.5-397B-A27B mit 397 Milliarden Parametern kam auf 76,2 Prozent.

Ein Modell mit 27 Milliarden Parametern übertrifft also eines mit 397 Milliarden — beim Coding, der wohl anspruchsvollsten Benchmark-Disziplin. Das ist kein marginaler Vorsprung, sondern ein fundamentaler Effizienzgewinn, der durch eine komplett neue Architektur ermöglicht wird.

Aber das ist nur die halbe Geschichte. Parallel dazu hat das Qwen-Team mit dem Qwen3.6-35B-A3B ein MoE-Modell veröffentlicht, das 35 Milliarden Parameter hat, aber nur 3 Milliarden gleichzeitig aktiviert. Das aggressivste Mixture-of-Experts-Verhältnis am Markt — und trotzdem erreicht es Benchmark-Werte, die noch vor wenigen Monaten 10x größeren Modellen vorbehalten waren.

2. Die 4 Modelle im Überblick

Die Qwen-3.6-Familie besteht aus vier Modellen, die über drei Wochen hinweg veröffentlicht wurden:

Modell Typ Parameter Aktiv Kontext Lizenz Release
Qwen3.6 Plus API-only unbekannt Proprietär 2. April 2026
Qwen3.6-35B-A3B MoE 35B 3B 262K (1M erweiterbar) Apache 2.0 16. April 2026
Qwen3.6-Max-Preview API-only unbekannt Proprietär 20. April 2026
Qwen3.6-27B Dense Dense 27B 27B 262K Apache 2.0 22. April 2026

Besonders bemerkenswert: Beide Open-Weight-Modelle stehen unter Apache 2.0 — der freizügigsten Open-Source-Lizenz. Kommerzielle Nutzung, Modifikation, Distribution — alles erlaubt, ohne Einschränkungen. Das unterscheidet Qwen 3.6 deutlich von Metas Llama-Modellen mit ihren Nutzungsbeschränkungen ab 700 Millionen monatlichen Nutzern.

3. Benchmarks im Detail

Zahlen sagen mehr als Marketingversprechen. Hier die wichtigsten Benchmarks der beiden Open-Weight-Modelle:

Qwen3.6-35B-A3B (MoE — nur 3B aktiv)

Benchmark Kategorie Score
SWE-bench Verified Agentic Coding 73,4%
AIME 2026 Mathematik 92,7%
GPQA Diamond Wissenschaft 86,0%

Zur Einordnung: Ein Modell, das nur 3 Milliarden Parameter gleichzeitig aktiviert, erreicht auf SWE-bench Verified 73,4 Prozent. Googles Gemma 4 27B kommt bei vergleichbaren Benchmarks nicht an diese Werte heran — und Gemma 4 aktiviert alle 27 Milliarden Parameter gleichzeitig.

Qwen3.6-27B Dense — der Coding-König

Noch beeindruckender sind die Zahlen des Dense-Modells:

Benchmark Qwen3.6-27B Qwen3.5-397B-A27B Differenz
SWE-bench Verified 77,2% 76,2% +1,0 Pp.

Das muss man sich auf der Zunge zergehen lassen: 27 Milliarden Parameter schlagen 397 Milliarden Parameter — also ein Modell, das 14,7-mal kleiner ist. Der Grund liegt in der komplett neuen Architektur, die wir im nächsten Abschnitt erklären.

Qwen3.6-Max-Preview — die Spitze der Pyramide

Das proprietäre Flaggschiff-Modell Qwen3.6-Max-Preview erreicht aktuell Platz 1 auf sechs Coding-Benchmarks gleichzeitig: SWE-bench Pro, Terminal-Bench, SkillsBench und drei weitere. Es ist damit das stärkste Coding-Modell, das bisher öffentlich gemessen wurde — wenn auch nur über die API verfügbar.

4. Die Architektur-Innovation: Gated DeltaNet

Was macht Qwen 3.6 so viel effizienter als seine Vorgänger? Die Antwort liegt in einer fundamentalen Änderung der Attention-Architektur.

Das Problem der klassischen Attention

Standard-Transformer verwenden Softmax Attention, die quadratisch mit der Sequenzlänge skaliert. Verdoppelt man die Kontextlänge, vervierfacht sich der Rechenaufwand. Das ist der Grund, warum lange Kontexte so teuer sind — und warum Modelle mit 1 Million Token Kontext bisher enorme GPU-Cluster brauchten.

Gated DeltaNet: Linear Attention mit Gedächtnis

Qwen 3.6 führt Gated DeltaNet ein — eine Form der Linear Attention, die nur linear mit der Sequenzlänge skaliert. Statt für jedes Token die Beziehung zu allen vorherigen Token neu zu berechnen, pflegt Gated DeltaNet einen komprimierten Zustandsspeicher, der inkrementell aktualisiert wird.

Der Clou: Das Modell verwendet ein hybrides Layout. Jeder Block besteht aus:

Block-Layout (pro 4 Layer):
├── Layer 1: Gated DeltaNet (Linear Attention) + MoE
├── Layer 2: Gated DeltaNet (Linear Attention) + MoE
├── Layer 3: Gated DeltaNet (Linear Attention) + MoE
└── Layer 4: Standard Attention (Softmax) + MoE

Drei von vier Layern nutzen die effiziente Linear Attention, während jeder vierte Layer klassische Softmax Attention verwendet. Diese Kombination erreicht laut Alibabas Messungen 95-98 Prozent der Qualität reiner Softmax-Modelle — bei deutlich geringerem Rechenaufwand, insbesondere bei langen Kontexten.

MoE: 256 Experten, aber nur 8+1 aktiv

Beim MoE-Modell (35B-A3B) kommen pro Layer 256 Experten-Netzwerke zum Einsatz. Für jedes Token werden nur 8 spezialisierte Experten plus 1 geteilter Experte aktiviert. Das bedeutet: Das Modell hat das Wissen von 35 Milliarden Parametern, verbraucht aber nur die Rechenleistung von 3 Milliarden.

Dieses Verhältnis von ~12:1 (total zu aktiv) ist das aggressivste am Markt. Zum Vergleich: DeepSeek V3 hatte ein Verhältnis von ~6:1 (671B total, 37B aktiv). Qwen 3.6 spart also doppelt so aggressiv — ohne nennenswerte Qualitätsverluste.

Multi-Token Prediction

Das Dense-Modell (27B) unterstützt zusätzlich Multi-Token Prediction — eine Technik, bei der das Modell nicht nur das nächste Token vorhersagt, sondern mehrere gleichzeitig. In Kombination mit Speculative Decoding kann das die Inferenz-Geschwindigkeit um den Faktor 1,5-2x beschleunigen, ohne die Qualität zu beeinträchtigen.

Training: Die 4-Stufen-Pipeline

Alibaba beschreibt eine vierstufige Trainingspipeline für Qwen 3.6:

  1. Pre-Training: Massive Datenmengen, um Weltwissen aufzubauen
  2. Long-Context Extension: Schrittweise Erweiterung des Kontextfensters auf 262K (nativ)
  3. Supervised Fine-Tuning: Qualitätsdaten für Instruktionsbefolgung und Coding
  4. Reinforcement Learning: RLHF und weitere Alignment-Techniken

Besonders das Extended-Context-Training auf bis zu 1 Million Token macht das MoE-Modell interessant für Anwendungen wie Codebase-Analyse oder lange Dokumentenverarbeitung.

Always-On Chain-of-Thought

Qwen3.6 Plus (die proprietäre API-Version) nutzt Always-On Chain-of-Thought — das Modell denkt bei jeder Anfrage zunächst intern nach, bevor es antwortet. Bei den Open-Weight-Modellen ist das Chain-of-Thought per Toggle umschaltbar: Nutzer können selbst entscheiden, ob das Modell „laut denken" soll oder direkt antworten. Das ist ein Vorteil gegenüber Modellen, die immer im Thinking-Modus arbeiten und dadurch mehr Token verbrauchen.

5. Hardware-Anforderungen

Eine der wichtigsten Fragen für die lokale Nutzung: Welche GPU brauche ich? Hier die VRAM-Anforderungen bei verschiedenen Quantisierungsstufen:

Modell FP16 Q8 Q4 Empfohlene GPU
Qwen3.6-35B-A3B ~70 GB ~37 GB ~21 GB RTX 4090 / RTX 3090 (24 GB)
Qwen3.6-27B Dense ~54 GB ~28 GB ~16,5 GB RTX 3090 / RTX 4080 Super (16 GB+)

Die gute Nachricht: Beide Open-Weight-Modelle laufen in Q4-Quantisierung auf einer einzelnen Consumer-GPU. Das 27B Dense in Q4 braucht nur etwa 16,5 GB VRAM — das schafft sogar eine RTX 3090 mit Reserven. Das MoE-Modell (35B-A3B) belegt in Q4 rund 21 GB und passt damit knapp auf eine RTX 3090 oder komfortabel auf eine RTX 4090.

Für eine ausführliche Übersicht zu empfohlenen GPUs für lokale KI-Modelle, schau dir unsere Hardware-Empfehlungen an.

6. Qwen 3.6 lokal installieren

Der einfachste Weg, Qwen 3.6 lokal auszuprobieren, führt über Ollama. In drei Schritten bist du startklar:

Schritt 1: Ollama installieren

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows: Download von https://ollama.com/download

Schritt 2: Modell herunterladen und starten

# MoE-Modell (35B total, 3B aktiv) — empfohlen für die meisten Anwendungen
ollama run qwen3.6

# Dense-Modell (27B) — empfohlen für Coding ollama run qwen3.6:27b

Schritt 3: Loslegen

Sobald das Modell geladen ist, kannst du direkt im Terminal chatten. Für eine Web-Oberfläche empfiehlt sich Open WebUI (GitHub), das sich mit Ollama verbindet und eine ChatGPT-ähnliche Oberfläche bietet.

Wann 35B-A3B, wann 27B Dense?

Einsatz Empfehlung Warum
Coding / Agentic Tasks 27B Dense SWE-bench 77,2% vs. 73,4% — deutlich besser bei Code
Allgemeine Aufgaben / Chat 35B-A3B Schneller wegen nur 3B aktiver Parameter
Lange Dokumente (>100K Token) 35B-A3B 262K nativ, bis 1M erweiterbar
Multimodal (Bild + Video) 35B-A3B Nativ multimodal — Text, Bild und Video
Wenig VRAM (16 GB) 27B Dense (Q4) ~16,5 GB VRAM — passt auf RTX 4060 Ti 16GB
Speculative Decoding 27B Dense Multi-Token Prediction eingebaut

7. Vergleich: Qwen 3.6 vs. Qwen 3.5 — was hat sich verbessert?

Der Sprung von Qwen 3.5 zu Qwen 3.6 ist kein inkrementelles Update, sondern ein Architekturwechsel:

Merkmal Qwen 3.5 Qwen 3.6
Architektur Standard Transformer Hybrid: Gated DeltaNet + Attention
Größtes Open-Weight 397B-A27B (MoE) 35B-A3B (MoE) + 27B (Dense)
SWE-bench Verified (bestes Open) 76,2% (397B) 77,2% (27B!)
Multimodal Text + Bild Text + Bild + Video
Consumer-GPU-tauglich Nur kleine Varianten Stärkstes Modell auf 1x RTX 3090
Multi-Token Prediction Nein Ja (Dense-Modell)
Chain-of-Thought Toggle (Thinking Mode) Always-On (Plus) / Toggle (Open)

Der wichtigste Fortschritt ist die Effizienz: Qwen 3.5 brauchte 397 Milliarden Parameter für seine besten Coding-Ergebnisse. Qwen 3.6 übertrifft diese Werte mit nur 27 Milliarden Parametern. Das senkt die Hardware-Kosten für Inference dramatisch — ein einzelner Server mit einer GPU reicht jetzt aus, wo vorher ein Multi-GPU-Cluster nötig war.

8. Vergleich: Qwen 3.6 vs. Gemma 4 vs. Claude vs. DeepSeek

Wo steht Qwen 3.6 im Vergleich zur aktuellen Konkurrenz? Hier der ehrliche Vergleich:

Benchmark Qwen3.6-35B-A3B Qwen3.6-27B Gemma 4 27B Claude Opus 4.6 DeepSeek V4
SWE-bench Verified 73,4% 77,2% 80,8%
AIME 2026 92,7% 89,2% 99,4%
GPQA Diamond 86,0%
Lizenz Apache 2.0 Apache 2.0 Gemma License Proprietär MIT
Lokal nutzbar ✔ (24 GB VRAM) ✔ (16 GB VRAM) ✔ (16 GB VRAM) ✘ (671B)

Einordnung

Coding: Claude Opus 4.6 bleibt mit 80,8 Prozent auf SWE-bench Verified der King of Code — aber es ist ein proprietäres Modell, das nur über die API nutzbar ist. Qwen3.6-27B Dense mit 77,2 Prozent ist das beste Coding-Modell, das du lokal auf einer einzelnen GPU betreiben kannst.

Mathematik: DeepSeek V4 dominiert mit 99,4 Prozent auf AIME 2026 — allerdings ist DeepSeek V4 mit 671 Milliarden Parametern kein Modell für Consumer-Hardware. Qwen 3.6 erreicht starke 92,7 Prozent mit einem Bruchteil der Parameter.

Allgemein: Gemma 4 27B von Google ist der nächste Konkurrent in der gleichen Gewichtsklasse. Im AIME-Benchmark liegt Qwen 3.6 mit 92,7 Prozent versus 89,2 Prozent deutlich vorne. Bei multimodalen Aufgaben und langen Kontexten hat Qwen 3.6 mit 262K (erweiterbar auf 1M) ebenfalls die Nase vorn.

9. API-Preise: 17-mal günstiger als Claude

Für Entwickler, die Qwen 3.6 über die API nutzen wollen (statt lokal), gibt es einen massiven Preisvorteil:

Modell Input (pro 1M Token) Output (pro 1M Token) Faktor vs. Claude
Qwen3.6 Plus (API) $0,29 17x günstiger
Claude Opus 4.6 $5,00 $25,00 Referenz
Lokale Nutzung (Ollama) $0,00 — nur Stromkosten (~0,03 EUR/Stunde bei RTX 3090)

Bei der API-Nutzung kostet Qwen 3.6 Plus nur ein Siebzehntel von Claude Opus 4.6. Für Anwendungen mit hohem Volumen — etwa Batch-Verarbeitung von Dokumenten oder automatisierte Code-Reviews — kann das den Unterschied zwischen wirtschaftlich und unwirtschaftlich ausmachen.

Noch besser: Wer das Modell lokal über Ollama betreibt, zahlt gar keine Token-Kosten. Bei einer RTX 3090, die rund 350 Watt unter Last verbraucht, liegen die reinen Stromkosten bei etwa 0,03 EUR pro Stunde (bei 0,30 EUR/kWh). Das ist unschlagbar.

10. DSGVO und Lizenz

Für europäische Unternehmen sind zwei Aspekte besonders relevant:

Apache 2.0 — maximale Freiheit

Beide Open-Weight-Modelle stehen unter Apache 2.0. Das bedeutet:

  • Kommerzielle Nutzung: Ja, ohne Einschränkungen
  • Modifikation und Finetuning: Ja
  • Distribution: Ja, auch in kommerziellen Produkten
  • Keine Nutzer-Obergrenze (anders als bei Llama)

DSGVO-Konformität durch lokale Nutzung

Wer Qwen 3.6 lokal betreibt — auf eigenen Servern oder dem eigenen PC — hat keine DSGVO-Probleme:

  • Keine Datenübertragung an Drittanbieter
  • Keine Auftragsverarbeitung nötig
  • Volle Kontrolle über Eingabe- und Ausgabedaten
  • Server-Standort = dein Standort (EU)

Das ist ein massiver Vorteil gegenüber Cloud-APIs wie ChatGPT, Claude oder Gemini, bei denen immer ein Auftragsverarbeitungsvertrag nötig ist und Daten an US-Server übertragen werden. Mehr dazu in unserem Überblick über lokale KI-Modelle.

11. Für wen lohnt sich Qwen 3.6?

Nicht jedes Modell passt für jeden Anwendungsfall. Hier eine ehrliche Einschätzung:

Qwen 3.6 ist ideal für:

  • Entwickler, die einen lokalen Coding-Assistenten suchen, der SWE-bench-Niveau erreicht
  • Unternehmen, die KI-Modelle unter Apache 2.0 kommerziell einsetzen wollen
  • DSGVO-sensitive Anwendungen, bei denen keine Daten die eigene Infrastruktur verlassen dürfen
  • Startups mit begrenztem Budget, die leistungsstarke KI ohne teure API-Kosten brauchen
  • Forscher, die ein State-of-the-Art-Modell mit neuer Architektur untersuchen wollen
  • Multimodale Anwendungen mit Text, Bild und Video (35B-A3B)

Qwen 3.6 ist NICHT ideal für:

  • Absolute Spitzenleistung bei Coding: Claude Opus 4.6 (80,8% SWE-bench) bleibt vorne
  • Mathematische Forschung: DeepSeek V4 (99,4% AIME) ist bei reiner Mathematik überlegen
  • Nutzer ohne GPU: Für rein CPU-basierte Inferenz sind kleinere Modelle (7B-8B) besser geeignet
  • Wer keine chinesischen Modelle einsetzen will: Einige Organisationen haben Compliance-Vorgaben bezüglich der Herkunft von KI-Modellen

12. Fazit

Qwen 3.6 ist kein inkrementelles Update — es ist ein Paradigmenwechsel. Die Kombination aus Gated DeltaNet (Linear Attention), aggressivem MoE (256 Experten, nur 8+1 aktiv) und Multi-Token Prediction zeigt, wohin die Reise bei Open-Source-Modellen geht: Weg von „mehr Parameter = besser" hin zu „intelligentere Architektur = besser".

Die Fakten sprechen für sich:

  • 27B Dense schlägt 397B MoE beim Coding (77,2% vs. 76,2% SWE-bench)
  • 35B-A3B MoE erreicht 92,7% auf AIME 2026 — mit nur 3B aktiven Parametern
  • Beide Modelle laufen auf einer einzelnen RTX 3090 (ab 16,5 GB VRAM in Q4)
  • Apache 2.0 — keine Nutzungsbeschränkungen, voll kommerziell
  • 17x günstiger als Claude bei der API-Nutzung

Für Entwickler und Unternehmen, die KI lokal und DSGVO-konform betreiben wollen, gibt es Stand April 2026 kein besseres Preis-Leistungs-Verhältnis. Wer eine RTX 3090 oder besser hat, sollte Qwen 3.6 ausprobieren — die Installation über ollama run qwen3.6 dauert keine fünf Minuten.

Weiterführende Artikel auf KI-Katalog.de:
Alle lokalen KI-Modelle im Überblick
GPU-Empfehlungen für lokale KI
RTX 3090 Kaufberatung für lokale KI
Gemma 4 lokal installieren — Anleitung

Quellen

  1. Qwen Team: Qwen3.6 Release Blog Post (April 2026)
  2. Hugging Face: Qwen3.6-35B-A3B Model Card
  3. Hugging Face: Qwen3.6-27B Dense Model Card
  4. SWE-bench Verified Leaderboard
  5. Ollama: Qwen 3.6 Library Page
  6. Yang et al.: Gated Linear Attention Transformers (arXiv)
  7. DeltaNet: Linear Attention with Delta Rule (arXiv)
  8. Anthropic: Claude API Pricing
  9. Qwen Chat: Offizielle Web-Oberfläche
  10. GitHub: QwenLM/Qwen3 Repository
  11. AIME 2026 Benchmark Results
  12. Open WebUI: Web-Oberfläche für Ollama